Python Text Processing 简明教程

很多时候,在我们得到搜索结果后,我们需要深入到现有搜索结果的一部分。例如,在给定的正文中,我们旨在获取 Web 地址,以及提取 Web 地址的不同部分,如协议、域名等。在这种情况下,我们需要借助 group 函数,该函数用于根据分配的正则表达式将搜索结果划分为各个组。我们通过使用括号将可搜索部分与我们希望匹配的固定单词分开来创建此类组表达式。

import re
text = "The web address is https://www.tutorialspoint.com"

# Taking "://" and "." to separate the groups
result = re.search('([\w.-]+)://([\w.-]+)\.([\w.-]+)', text)
if result :
    print "The main web Address: ",result.group()
    print "The protocol: ",result.group(1)
    print "The doman name: ",result.group(2)
    print "The TLD: ",result.group(3)

当我们运行以上程序时,我们得到以下输出:

The main web Address:  https://www.tutorialspoint.com
The protocol:  https
The doman name:  www.tutorialspoint
The TLD:  com