Python 简明教程
Python - Regular Expressions
正则表达式是一个特殊字符序列,它帮助你使用模式中保存的特殊语法匹配或查找其他字符串或字符串集。正则表达式通常称为 regex 或 regexp。
通常,此类模式由字符串搜索算法用于字符串上的“查找”或“查找并替换”操作,或用于输入验证。
数据科学项目中的大规模文本处理需要对文本数据进行操作。许多编程语言(包括 Python)都支持正则表达式处理。Python 的标准库为此目的提供了 re 模块。
由于 re 模块中定义的大多数函数都使用原始字符串,因此让我们首先了解什么是原始字符串。
Raw Strings
正则表达式使用反斜杠字符 ('\') 来指示特殊形式或允许使用特殊字符而不调用它们的特殊含义。另一方面,Python 使用相同字符作为转义字符。因此,Python 使用原始字符串表示法。
如果在引号前加上 r 或 R,则字符串将成为原始字符串。因此,'Hello' 是一个普通字符串,而 r’Hello' 是一个原始字符串。
>>> normal="Hello"
>>> print (normal)
Hello
>>> raw=r"Hello"
>>> print (raw)
Hello
在正常情况下,两者之间没有区别。但是,当转义字符嵌入字符串中时,普通字符串实际上解释转义序列,而原始字符串不处理转义字符。
>>> normal="Hello\nWorld"
>>> print (normal)
Hello
World
>>> raw=r"Hello\nWorld"
>>> print (raw)
Hello\nWorld
在上述示例中,打印普通字符串时,转义字符 '\n' 会被处理为引入换行符。然而,由于原始字符串运算符“r”,转义字符的作用不会按其含义进行转换。
Metacharacters
大多数字母和字符只是匹配它们自己。但是,有些字符是特殊元字符,不匹配它们自己。元字符是具有特殊含义的字符,类似通配符中的 *。
以下是元字符的完整列表:
. ^ $ * + ? { } [ ] \ | ( )
方括号符号 [ 和 ] 指示一组您希望匹配的字符。字符可以逐个列出,或作为以 '-' 分隔的字符范围列出。
'\' 是一个转义元字符。后面跟着各种字符会形成各种特殊序列。如果您需要匹配 [ 或 \, 您可以使用反斜杠为它们加上前缀以消除其特殊含义:\[ 或 \\。
以 '\' 开头的此类特殊序列表示的预定义字符集如下所示:
Python 的 re 模块提供了用于查找匹配、搜索模式和用其他字符串替换匹配字符串等有用函数。
The re.match() Function
此函数尝试使用可选标志匹配字符串开头的 RE 模式。以下是此函数的 syntax :
re.match(pattern, string, flags=0)
以下是参数说明 −
re.match() 函数在成功时返回 match 对象,在失败时返回 None 。匹配对象实例包含有关匹配的信息:开始和结束的位置、匹配的子字符串等。
匹配对象的 start() 方法返回模式在字符串中的起始位置,end() 返回结束点。
如果找不到模式,则匹配对象为 None。
我们使用 match 对象的 group(num) 或 groups() 函数来获取匹配的表达式。
The re.search() Function
此函数搜索字符串中 RE 模式的第一次出现,并带有可选标志。以下是此函数的 syntax :
re.search(pattern, string, flags=0)
以下是参数说明 −
re.search 函数在成功时返回 match 对象,在失败时返回 none 。我们使用 match 对象的 group(num) 或 groups() 函数获取匹配的表达式。
Matching Vs Searching
Python 基于正则表达式提供了两种不同的基本操作, match 仅检查字符串开头的匹配,而 search 检查字符串中任何位置的匹配(这是 Perl 默认执行的操作)。
Example
import re
line = "Cats are smarter than dogs";
matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
print ("match --> matchObj.group() : ", matchObj.group())
else:
print ("No match!!")
searchObj = re.search( r'dogs', line, re.M|re.I)
if searchObj:
print ("search --> searchObj.group() : ", searchObj.group())
else:
print ("Nothing found!!")
当执行以上代码时,它会产生以下 output -
No match!!
search --> matchObj.group() : dogs
The re.findall() Function
findall() 函数将字符串中的模式所有不重叠的匹配项作为字符串或元组列表返回。从左到右扫描字符串,并按找到的顺序返回匹配项。结果中包含空匹配项。
Example
import re
string="Simple is better than complex."
obj=re.findall(r"ple", string)
print (obj)
它将生成以下 output −
['ple', 'ple']
以下代码借助 findall() 函数获取句子中的单词列表。
import re
string="Simple is better than complex."
obj=re.findall(r"\w*", string)
print (obj)
它将生成以下 output −
['Simple', '', 'is', '', 'better', '', 'than', '', 'complex', '', '']
The re.sub() Function
使用正则表达式的最重要的 re 方法之一是 sub 。
Syntax
re.sub(pattern, repl, string, max=0)
此方法使用 repl 替换字符串中 RE 模式的所有出现,除非提供了 max,否则将替换所有出现。此方法返回修改后的字符串。
Example
import re
phone = "2004-959-559 # This is Phone Number"
# Delete Python-style comments
num = re.sub(r'#.*$', "", phone)
print ("Phone Num : ", num)
# Remove anything other than digits
num = re.sub(r'\D', "", phone)
print ("Phone Num : ", num)
它将生成以下 output −
Phone Num : 2004-959-559
Phone Num : 2004959559
The re.compile() Function
compile() 函数将正则表达式模式编译成正则表达式对象,可以使用该对象与其 match()、search() 和其他方法进行匹配。
Flags
序列 −
prog = re.compile(pattern)
result = prog.match(string)
等效于 −
result = re.match(pattern, string)
但当在单个程序中多次使用表达式时,使用 re.compile() 并保存生成的正则表达式对象以便重用更为有效。
Example
import re
string="Simple is better than complex. Complex is better than complicated."
pattern=re.compile(r'is')
obj=pattern.match(string)
obj=pattern.search(string)
print (obj.start(), obj.end())
obj=pattern.findall(string)
print (obj)
obj=pattern.sub(r'was', string)
print (obj)
它将生成如下输出:
7 9
['is', 'is']
Simple was better than complex. Complex was better than complicated.
Finding words starting with vowels
import re
text = 'Errors should never pass silently. Unless explicitly silenced.'
obj=re.findall(r'\b[aeiouAEIOU]\w+', text)
print (obj)
它将生成以下 output −
['Errors', 'Unless', 'explicitly']
Regular Expression Modifiers: Option Flags
正则表达式文本中可能包含一个可选修饰符来控制匹配的各个方面。修饰符指定为可选标志。你可以使用互斥或 (|),来提供多个修饰符,如以前所示,也可以用以下之一来表示 −
Sr.No. |
Modifier & Description |
1 |
re.I Performs case-insensitive matching. |
2 |
re.L 根据当前区域设置解释单词。此解释影响字母组 (\w 和 \W),以及词边界行为 (\b 和 \B)。 |
3 |
re.M 使 $ 匹配行末(而不仅仅是字符串末尾)并使 ^ 匹配任何行的开头(而不仅仅是字符串的开头)。 |
4 |
re.S 使句点(点)匹配任何字符,包括换行符。 |
5 |
re.U 根据 Unicode 字符集解释字母。此标志会影响 \w、\W、\b、\B 的行为。 |
6 |
re.X 允许“更简洁”的正则表达式语法。它忽略空格(除非在集合 [] 内或被反斜杠转义),并将未转义的 # 作为注释标记对待。 |
Regular Expression Patterns
除了控制字符 (+ ? . * ^ $ ( ) [ ] { } | \) ,所有字符都匹配自身。你可以在控制字符前面加上反斜杠对其进行转义。
下表列出了 Python 中提供的正则表达式语法 −
Sr.No. |
Pattern & Description |
1 |
^ Matches beginning of line. |
2 |
$ Matches end of line. |
3 |
. 匹配除换行符以外的任何单个字符。使用 m 选项允许它也匹配换行符。 |
4 |
[…​] 匹配方括号中的任何单个字符。 |
5 |
[^…​] 匹配方括号中没有的任何单个字符 |
6 |
re *匹配前置表达式的 0 次或多次出现。 |
7 |
re+ 匹配前一个表达式的 1 次或多次出现。 |
8 |
re? 匹配前一个表达式的 0 次或 1 次出现。 |
9 |
re{ n} 匹配前一个表达式出现的确切 n 次。 |
10 |
re{ n,} 匹配前一个表达式出现的 n 次或多次。 |
11 |
re{ n, m} 匹配前一个表达式出现的至少 n 次且至多 m 次。 |
12 |
*a |
{b}匹配 a 或 b。 |
13 |
(re) 对正则表达式进行分组并记住匹配的文本。 |
14 |
(?imx) 在正则表达式中暂时启用 i、m 或 x 选项。如果在括号中,仅影响该区域。 |
15 |
(?-imx) 在正则表达式中暂时禁用 i、m 或 x 选项。如果在括号中,仅影响该区域。 |
16 |
(?: re) 对正则表达式进行分组而不记住匹配的文本。 |
17 |
(?imx: re) 在括号中暂时启用 i、m 或 x 选项。 |
18 |
(?-imx: re) 在括号中暂时禁用 i、m 或 x 选项。 |
19 |
(?#…) Comment. |
20 |
(?= re) 使用模式指定位置。没有范围。 |
21 |
(?! re) 使用模式否定指定位置。没有范围。 |
22 |
(?> re) 匹配独立模式而不回溯。 |
23 |
\w Matches word characters. |
24 |
\W Matches nonword characters. |
25 |
\s 匹配空格。等效于 [\t\n\r\f]。 |
26 |
\S Matches nonwhitespace. |
27 |
\d 匹配数字。等效于 [0-9]。 |
28 |
\D Matches nondigits. |
29 |
\A Matches beginning of string. |
30 |
\Z 匹配字符串的结尾。如果存在换行符,则匹配在换行符前。 |
31 |
\z Matches end of string. |
32 |
\G 匹配上次匹配结束的位置。 |
33 |
\b 当不在括号中时,匹配单词边界。当在括号中时,匹配退格符(0x08)。 |
34 |
\B Matches nonword boundaries. |
35 |
\n, \t, etc. 匹配换行符、回车符、制表符等。 |
36 |
\1…\9 Matches nth grouped subexpression. |
37 |
Character classes
Sr.No. |
Example & Description |
1 |
[Pp]ython Match "Python" or "python" |
2 |
rub[ye] Match "ruby" or "rube" |
3 |
[aeiou] 匹配所有小写元音 |
4 |
[0-9] 匹配任意数字;与 [0123456789] 相同 |
5 |
[a-z] 匹配所有小写 ASCII 字母 |
6 |
[A-Z] 匹配所有大写 ASCII 字母 |
7 |
[a-zA-Z0-9] 匹配以上任何一项 |
8 |
[^aeiou] 匹配所有除小写元音之外的字符 |
9 |
[^0-9] 匹配所有除数字之外的字符 |
Special Character Classes
Sr.No. |
Example & Description |
1 |
. 匹配除换行符之外的任意字符 |
2 |
\d Match a digit: [0-9] |
3 |
\D Match a nondigit: [^0-9] |
4 |
\s 匹配空白字符: [ \t\r\n\f] |
5 |
\S Match nonwhitespace: [^ \t\r\n\f] |
6 |
\w 匹配单个单词字符: [A-Za-z0-9_] |
7 |
\W 匹配非单词字符: [^A-Za-z0-9_] |
Repetition Cases
Sr.No. |
Example & Description |
1 |
ruby? 匹配“rub”或“ruby”:y 可选 |
2 |
ruby *匹配“rub”加上 0 个或更多个 y |
3 |
ruby+ 匹配“rub”加上 1 个或更多个 y |
4 |
\d{3} Match exactly 3 digits |
5 |
\d{3,} 匹配 3 个或更多个数字 |
6 |
\d{3,5} 匹配 3、4 或 5 个数字 |
Nongreedy repetition
这匹配最少重复数量−
Sr.No. |
Example & Description |
1 |
<.>* Greedy repetition: matches "<python>perl>" |
2 |
<. ?*Nongreedy: 在 "<python>perl>" 中匹配 "<python>" |
Grouping with Parentheses
Sr.No. |
Example & Description |
1 |
\D\d+ No group: + 重复\d |
2 |
(\D\d)+ 分组: + 重复\ D\d 对 |
3 |
([Pp]ython(, )?)+ 匹配 "Python", "Python, python, python" 等 |
Backreferences
这再次匹配先前的匹配组——
Sr.No. |
Example & Description |
1 |
([Pp])ython&\1ails Match python&pails or Python&Pails |
2 |
(['"])[^\1] \1*单引号或双引号字符串。\1 匹配第 1 个组匹配的内容。\2 匹配第 2 个组匹配的内容,依此类推。 |
Alternatives
Sr.No. |
Example & Description |
1 |
*python |
perl* Match "python" or "perl" |
2 |
*rub(y |
le))* Match "ruby" or "ruble" |
3 |
*Python(!+ |
Anchors
这需要指定匹配位置
Sr.No. |
Example & Description |
1 |
^Python 匹配字符串或内部行的开头处的 "Python" |
2 |
Python$ 匹配字符串或行的结尾处的 "Python" |
3 |
\APython 匹配字符串开头处的 "Python" |
4 |
Python\Z 匹配字符串结尾处的 "Python" |
5 |
\bPython\b 在单词边界匹配 "Python" |
6 |
\brub\B \B是非单词边界:匹配 "rube" 和 "ruby" 中的 "rub",但不单独匹配 |
7 |
Python(?=!) 如果后接感叹号,则匹配 "Python"。 |
8 |
Python(?!!) 如果后不接感叹号,则匹配 "Python"。 |