Python 简明教程

Python - URL Processing

在互联网世界中,不同的资源由 URL(统一资源定位符)标识。Python 的标准库包括 urllib 包,其中包含用于处理 URL 的模块。它可以帮助你解析 URL、获取网络内容和管理错误。

本教程介绍了 urllib 基础知识,以帮助你开始使用它。使用 urllib 提升你在网络抓取、数据获取和 URL 管理方面的 Python 技能。

urllib 包包含以下用于处理 URL 的模块 −

  1. urllib.parse 模块用于将 URL 解析成其各部分。

  2. urllib.request 模块包含用于打开和读取 URL 的函数

  3. urllib.error 模块承载 urllib.request 引发的异常的定义

  4. urllib.robotparser 模块解析 robots.txt 文件

The urllib.parse Module

此模块用作一个标准接口,以从 URL 字符串获取各个部分。该模块包含以下函数−

urlparse(urlstring)

将 URL 解析成六个组件,返回一个 6 项命名字段的元组。每个元组项是一个字符串,对应于以下属性−

Example

from urllib.parse import urlparse
url = "https://example.com/employees/name/?salary>=25000"
parsed_url = urlparse(url)
print (type(parsed_url))
print ("Scheme:",parsed_url.scheme)
print ("netloc:", parsed_url.netloc)
print ("path:", parsed_url.path)
print ("params:", parsed_url.params)
print ("Query string:", parsed_url.query)
print ("Frgment:", parsed_url.fragment)

它将生成以下 output

<class 'urllib.parse.ParseResult'>
Scheme: https
netloc: example.com
path: /employees/name/
params:
Query string: salary>=25000
Frgment:

parse_qs(qs))

此函数解析给定为字符串参数的查询字符串。数据作为字典返回。字典键是唯一的查询变量名,值是每个名称的值列表。

要进一步从查询字符串提取查询参数到字典中,请按如下方式使用 ParseResult 对象的 query 属性的 parse_qs() 函数 −

Example

from urllib.parse import urlparse, parse_qs
url = "https://example.com/employees?name=Anand&salary=25000"
parsed_url = urlparse(url)
dct = parse_qs(parsed_url.query)
print ("Query parameters:", dct)

它将生成以下 output

Query parameters: {'name': ['Anand'], 'salary': ['25000']}

urlsplit(urlstring)

这类似于 urlparse(),但不会从 URL 中分离参数。如果想要较新的 URL 语法,允许将参数应用于 URL 的路径部分的每个部分,则通常应该使用它代替 urlparse()。

urlunparse(parts)

此函数与 urlparse() 函数相反。它根据 urlparse() 返回的元组构造一个 URL。parts 参数可以是任何六项可迭代对象。这会返回一个等效的 URL。

Example

from urllib.parse import urlunparse

lst = ['https', 'example.com', '/employees/name/', '', 'salary>=25000', '']
new_url = urlunparse(lst)
print ("URL:", new_url)

它将生成以下 output

URL: https://example.com/employees/name/?salary>=25000

urlunsplit(parts)

将通过 urlsplit() 返回的元组的元素组合成一个完整的 URL,作为字符串。parts 参数可以是任何五项可迭代对象。

The urllib.request Module

此模块通过使用 urlopen() 函数提供了用于处理 URL 的打开和读取操作的函数和类。

urlopen() function

此函数打开给定的 URL,该 URL 可以是字符串或请求对象。可选的 timeout 参数指定一个超时时间(以秒为单位),用于阻塞操作。这实际上只适用于 HTTP、HTTPS 和 FTP 连接。

此函数始终返回一个对象,该对象可用作上下文管理器,并具有 url、headers 和 status 属性。对于 HTTP 和 HTTPS URL,此函数返回一个稍加修改的 http.client.HTTPResponse 对象。

Example

以下代码使用 urlopen() 函数从图像文件的二进制数据读取,并将其写入本地文件。您可以使用任何图像查看器在您的计算机打开图像文件。

from urllib.request import urlopen
obj = urlopen("https://www.tutorialspoint.com/images/logo.png")
data = obj.read()
img = open("img.jpg", "wb")
img.write(data)
img.close()

它将生成以下 output

logo

The Request Object

urllib.request 模块包括 Request 类。此类是 URL 请求的抽象类。构造函数需要一个有效的 URL 字符串参数。

Syntax

urllib.request.Request(url, data, headers, origin_req_host, method=None)

Parameters

  1. url − 一个有效 URL 的字符串

  2. data − 一个指定要发送到服务器的其他数据对象。此参数仅能与 HTTP 请求一并使用。数据可以是字节、类文件对象和类字节对象的迭代对象。

  3. headers − 应该是包含标头及其关联值的字典。

  4. origin_req_host − 应该是原始交易的请求主机

  5. method − 应该是指示 HTTP 请求方法的字符串。GET、POST、PUT、DELETE 和其他 HTTP 动词之一。默认值为 GET。

Example

from urllib.request import Request
obj = Request("https://www.tutorialspoint.com/")

此 Request 对象现在可用作 urlopen() 方法的参数。

from urllib.request import Request, urlopen
obj = Request("https://www.tutorialspoint.com/")
resp = urlopen(obj)

urlopen() 函数返回一个 HttpResponse 对象。调用其 read() 方法可抓取指定 URL 的资源。

from urllib.request import Request, urlopen
obj = Request("https://www.tutorialspoint.com/")
resp = urlopen(obj)
data = resp.read()
print (data)

Sending Data

如果为 Request 构造函数定义数据参数,将向服务器发送 POST 请求。数据应为任何以字节表示的对象。

from urllib.request import Request, urlopen
from urllib.parse import urlencode

values = {'name': 'Madhu',
   'location': 'India',
   'language': 'Hindi' }
data = urlencode(values).encode('utf-8')
obj = Request("https://example.com", data)

Sending Headers

Request 构造函数还接受标头参数以将标头信息推入请求中。它应包含在一个字典对象中。

headers = {'User-Agent': user_agent}
obj = Request("https://example.com", data, headers)

The urllib.error Module

urllib.error 模块中定义了以下异常 −

URLError

由于网络未连接(找不到路由到指定服务器)或指定的服务器不存在,因此会引发 URLError。在此情况下,引发的异常将具有“原因”属性。

Example

from urllib.request import Request, urlopen
import urllib.error as err

obj = Request("http://www.nosuchserver.com")
try:
   urlopen(obj)
except err.URLError as e:
   print(e)

它将生成以下 output

HTTP Error 403: Forbidden

HTTPError

服务器每次发送 HTTP 响应时都会与一个数字“状态码”相关联。该代码指示服务器无法满足请求的原因。默认处理程序将为您处理其中一些响应。对于它无法处理的响应,urlopen() 函数会引发 HTTPError。HTTPErrors 的典型示例为“404”(页面未找到)、“403”(禁止请求)和“401”(需要身份验证)。

Example

from urllib.request import Request, urlopen
import urllib.error as err

obj = Request("http://www.python.org/fish.html")
try:
   urlopen(obj)
except err.HTTPError as e:
   print(e.code)

它将生成以下 output

404