Beautiful Soup 简明教程

Beautiful Soup - decode() Method

Method Description

Beautiful Soup 中的 decode() 方法将解析树作为 HTML 或 XML 文档返回为字符串或 Unicode 表示形式。此方法使用为编码注册的编解码器解码字节。它的函数与 encode() 方法相反。您调用 encode() 获取字节串,调用 decode() 获取 Unicode。让我们通过一些示例来学习 decode() 方法。

Syntax

decode(pretty_print, encoding, formatter, errors)

Parameters

  1. pretty_print − 如果该值为 True,则缩进将用于使文档更具可读性。

  2. encoding − 最终文档的编码。如果该值为 Null,则该文档将为 Unicode 字符串。

  3. formatter − Formatter object,或一个指定标准制表符之一的字符串。

  4. errors − 用于处理解码错误的错误处理方案。值为“strict”、“ignore”和“replace”。

Return Value

decode() 方法返回一个 Unicode 字符串。

Example

from bs4 import BeautifulSoup

soup = BeautifulSoup("Hello “World!”", 'html.parser')
enc = soup.encode('utf-8')
print (enc)
dec = enc.decode()
print (dec)

Output

b'Hello \xe2\x80\x9cWorld!\xe2\x80\x9d'
Hello "World!"