环球聚焦:正则表达式(极其适合零基础)

走自己的道路,为了梦想去努力,即使有人会亏待你,时间也不会亏待你。


(相关资料图)

----人民日报

大家好,今天要和大家分享的是正则表达式(我相信,这将会是你看到一篇最最最通俗易懂的文章),因为在班群看到一位很强的同学在讲这个东西,而我有技术焦虑症,于是去找了很多很多资料,我基础还是不错的但还是很难看得懂,看了很久终于找到一些不错的文章,我在这里全部总结出来与大家共享!!!

以下这些东西很好理解的啦!是用Java语言写的,可能没学Java的看不懂(我也没学),还有一些名词看不懂也没关系,不用着急,但是呢,大家大概看懂意思就足够啦!话不多说,直接步入正题!

一.关于正则表达式:

正则表达式在几乎所有语言中都可以使用,无论是前端的JavaScript、还是后端的Java、c#。他们都提供相应的接口/函数支持正则表达式。但很神奇的是:无论你大学选择哪一门计算机语言,都没有关于正则表达式的课程给你修,在你学会正则之前,你只能看着那些正则大师们,写了一串外星文似的字符串,替代了你用一大篇幅的ifelse代码采做一些数据校验。既然喜欢,那就动手学呗,可当你百度出一一堆相关资料时,你发现无一不例外的枯燥至极,难以学习。

以下是维基百科给的定义:

正则表达式,又称规则表达式,(RegularExpression,在代码中常简写为regex,regexp或RE),是一种文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为"元字符"),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式(规则)的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开来的,后来在广泛运用于Scala、PHP、C#、Java、C++、Objective-c、Perl、Swift、VBScript、Javascript、Ruby以及Python等等。正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。

二.正则表达式的基础语法知识点:

1.元字符:

万物皆有缘,正则也是如此,元字符是构造正则表达式的一种基本元素。因此,我们先来记几个常用的元字符:

2.重复限定符:

有了元字符就可以写不少的正则表达式了,但细心的你们可能会发现:别人写的正则简洁明了,而我们写的正则一堆乱七八糟而且重复的元字符组成的。正则没提供办法处理这些重复的元字符吗?答案是否定的,接着往下看:

为了处理这些重复问题,正则表达式中一些重复限定符,把重复部分用合适的限定符替代,下面我们来看一些限定符。

3.分组:

从上面的例子(4)中看到,"*”限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被*限定那怎么办呢?

正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。因此当我们要匹配多个ab时,我们可以这样如:匹配字符串中包含0到多个ab开头:

^(ab)*

4转义:

我们看到正则表达式用小括号来做分组,那么问题来了!如果要匹配的字符串中本身就包含小括号,那是不是冲突?应该怎么办?针对这种情况,正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简单,就是在要转义的字符前面加个斜杠,也就是即可如:要匹配以(ab)开头:

(\(ab\))*

5条件或(分支条件):

回到我们刚才的手机号匹配,我们都知道:国内号码都来自三大网,它们都有属于自己的号段,比如联通有130/131/132/155/156/185/186/145/176等号段,假如让我们匹配一个联通的号码,那按照我们目前所学到的正则,应该无从下手的,因为这里包含了一些并列的条件,也就是“或”,那么在正则中是如何表示“或”的呢?正则用符号|来表示或,也叫做分支条件,当满足正则里的分支条件的任何一种条件时,都会当成是匹配成功。那么我们就可以用或条件来处理这个问题:

6区间:

看到上面的例子,是不是看到有什么规律?是不是还有一种想要简化的冲动?实际是有的正则提供一个元字符中括号[]来表示区间条件:

(1)限定0到9可以写成[0-9];

(2).限定A-Z写成[A-Z];

(3).限定某些数字[165];

那上面的正则我们还改成这样

^((13[0-2])|(15[5-6])1(18[5-6])|145|176)\d{8}$

三.正则表达式在字符串的应用:

你是如何学会正则表达式的?好啦,正则表达式的基本用法就分享到这里了,其实它还有非常多的知识点以及元字符,在此只列举了部分元字符和语法来讲,旨在给那些不懂正则或者想学正则但有看不下去文章的人做一个快速入门级的文章,看完这篇文章,即使你不能写出高大上的正则,至少也能写一些简单的正则或者看得懂别人写的正则了。

1.零宽与断言:

无论是零宽还是断言,听起来都古古怪怪的,那先解释一下这两个词:

断言:俗话的断言就是“我断定什么什么”,而正则中的断言,就是说正则表达式可以指明在指定的内容的前面或后面会出现满足指定规则的内容(多读几遍,这句话很重要),意思正则也可以像人类那样断定什么什么,比如“sslaa2bb3”正则可以用断言找出aa2前面有bb3,也可以找出aa2后面有ss1。

零宽:零宽就是字节宽度为0的特殊字符。在正则中,断言只是匹配位置,不占字符匹配结果里是不会返回断言本身。意思是讲明白了,那他有什么用呢?举个例子:

假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构:

"阅读数:1024span"

其中也就1024这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的"1024"有很多种办法,但如果正则应该怎么匹配呢?

下面先来讲几种类型的断言:

(1).正向先行断言(正前瞻);

·语法:(?=pattern);

·作用:匹配pattern表达式的前面内容,不返回本身;

这样子说,还是一脸懵,没事,不用着急,我们是不懂才来学的,我们回归刚才那个例子,要取到阅读量,在正则表达式中就意味着要能匹配到(span)前面的数字内容按照以上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=span)就可以匹配到前面的内容了。匹配什么内容呢?如果要所有内容那就是:

Stringreg=".+(?=span)"Stringtest=“阅读数:1024span";patternpattern=Pattern.compile(reg);sMatchermc=pattern.matcher(test);while(mc.find){7System.out.println("匹配结果:“)名System.out.println(mc.group);//匹配结果//1024

可是,我们要的只是前面的数字呀,利用前面提及到的语法匹配数字\d,那可以改成:

Stringreg="\\d+(?=span)";Stringtest=“阅读数:1024span";Patternpattern=Pattern,compile(reg);Matchermc=pattern,matcher(test);while(mc.find){System.out.println(mc.group);}//匹配结果://1024

(2).正向后行断言(正后顾):

·语法:(?<=pattern);

·作用:匹配pattern表达式的后面的内容,不返回本身;

有先行就有后行,先行是匹配前面的内容,那后行就是匹配后面的内容,利用上面的例子,我们也可以用后行断言来处理:

///?<=阅读:)ld+Stringreg="(?<=阅读数:)\\d+";Stringtest="阅读数:1024span";Patternpattern=pattern.compile(reg);Matchermc=pattern.matcher(test);while(mc,find){System.out.println(mc.group);}//匹配结果//1024

(3).负向先行断言(负前瞻):

·语法:(?!pattern);

·作用:匹配非pattern表达式的前面内容,不返回本身;

有正向也有负向,负向在这里其实就是非的意思举个例子:比如有一句“我爱祖国,我是祖国的花朵,现在要找到不是"的花朵"前面的祖国,用正则就可以这样写:

//祖国(?!的花朵)

(4).负向后行断言(负后顾):

·语法:(?

·作用:匹配非pattern表达式的后面内容不返回本身;

2.捕获和非捕获:

·捕获:意思是匹配表达式,但捕获通常和前面提到的的分组联系在一起,也就是"捕获组"。

·捕获组:匹配子表达式的内容,把匹配结果保存到内存中数字编号或显示命的组里面,之后可以通过序号或名称来使用这些匹配结果。而根据命名方式的不同,又可以分为两种组,分别是数字编号捕获组和命名编号捕获组。

(1).数字编号捕获组:

·语法:(exp)

·解释:从表达式左侧开始,每出现一个左括号和它对应的右括号之间的内容为一个分组,在分组中,第0组为整个表达式,第一组开始为分组。比如固定电话的:020-85653333,它的正则表达式为:

(0\d{2})-(\d{8})按照左括号的顺序,这个表达式有如下分组:

(2).命名编号捕获组:

·语法:(?exp)

·解释:分组的命名由表达式中的name指定。比如"区号"也可以这样写:

(?\O\d2])-(?\dt8)按照左括号的顺序,这个表达式有如下分组:

(3).非捕获组:

·语法:(?:exp)

·解释:和捕获组刚好相反,它用来标识那些不需要捕获的分组,说的通俗一点,就是你可以根据需要去保存你的分组。比如上面的正则表达式,程序不需要用到第一个分组,那就可以这样写:

(?:\0\d{2})-(\d{8})

3.反向引用:

上面讲到捕获,我们知道:捕获会返回一个捕获组,这个分组是保存在内存中的,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用。

根据捕获组的命名规则,反向引用可分为

(1).数字编号组反向引用:\k或\number

(2).命名编号组反向引用:\k或者\"name"

好了讲完了,懂吗?不懂!!!可能连前面讲的捕获有什么用都还不懂吧?其实只是看完捕获不懂不会用是很正常的,因为捕获组通常是和反向引用一起使用的.

上面说到捕获组是匹配子表达式的内容按序号或者命名保存起来以便使用,注意两个字眼:内容”和“使用“是匹配结果,而不是子表达式本身,强调这个有什么用?嗯,先记住这里所说的“内容”那这里所说的“使用”是怎样使用呢?

因为它的作用主要是用来查找一些重复的内容或者做替换指定字符.

还是举个例子吧:

比如要查找一串字母"aabbbbgbddesddfiid"里成对的字母,如果按照我们之前学到的正则,什么区间啊限定啊断言啊可能是办不到的,现在我们先用程序思维理一下思路:

1)匹配到一个字母;

2)匹配第下一个字母,检查是否和上一个字母是否一样;

3)如果一样,则匹配成功,否则失败;

这里的思路2中匹配下一个字母时,需要用到上一个字母,那怎么记住上一个字母呢???这下子捕获就有用处啦,我们可以利用捕获把上一个匹配成功的内容用来作为本次匹配的条件好了,有思路就要实践首先匹配一个字母:\w,我们需要做成分组才能捕获,因此写成这样:(\w)。

那这个表达式就有一个捕获组:(\w),然后我们要用这个捕获组作为条件,那就可以:(\w)这样就大功告成了,可能有人不明白了,\1是什么意思呢?还记得捕获组有两种命名方式吗,一种是是根据捕获分组顺序命名,一种是自定义命名来作为捕获组的,命名在默认情况下都是以数字来命名,而且数字命名的顺序是从1开始的因此要引用第一个捕获组,根据反向引用的数字命名规则就需要\k<1>或者\1当然,通常都是是后者。

4.贪婪与非贪婪:

(1).贪婪:我们都知道,贪婪就是不满足,尽可能多的要。在正则中,贪婪也是差不多的意思。

贪婪匹配:当正则表达式中包含重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这匹配方式叫做贪婪匹配。

贪婪特性:一次性读入整个字符串进行匹配,每当不匹配就舍弃最右边一个字符,继续匹配,依次匹配和舍弃(这种匹配-舍弃的方式也叫做回溯),直到匹配成功或者把整个字符串舍弃完为止,因此它是一种最大化的数据返回能多不会少。

前面我们讲过重复限定符,其实这些限定符就是贪婪量词,比如表达式:

\d(3,6)

用来匹配3到6位数字,在这种情况下,它是一种贪婪模式的匹配,也就是假如字符串里有6个个数字可以匹配,那它就是全部匹配到。

stringreg="\ld(3,61";stringtest="617628281762991871";System,out.printIn("文本:"+test);System.out.println("贪婪模式:"+reg);Patternp1=Pattern.compile(reg);Matcherm1=p1.matcher(test);while(m1.find){System.out.println("匹配结果:"+m1.group(e));}

输出结果:

文本:61762828176299144871贪婪模式:id{3,6}匹配结果:617628匹配结果:176匹配结果:2991匹配结果:871

由结果可见:本来字符串的“61762828"这一段,其实只需要出现3个(617)就已经匹配成功了的,但是他并不满足,而是匹配到了最大能匹配的字符,也就是6个个量词就如此贪婪了,那有人会问,如果多个贪婪量词凑在一起,那他们是如何支配自己的匹配权的呢?

是这样的,多个贪婪在一起时,如果字符串能满足他们各自最大程度的匹配时,就互不干扰,但如果不能满足时,会根据深度优先原则,也就是从左到右的每一个贪婪量词,优先最大数量的满足,剩余再分配下一个量词匹配。

(2).懒惰(非贪婪)

关键词: 正则表达式