Beautiful Soup 简明教程

Beautiful Soup - prettify() Method

Method Description

要获得格式良好的 Unicode 字符串,请使用 Beautiful Soup 的 prettify() 方法。它对 Beautiful Soup 解析树进行格式化,以便每个标记都位于单独的行上并带有缩进。它允许您轻松可视化 Beautiful Soup 解析树的结构。

Syntax

prettify(encoding, formatter)

Parameters

  1. encoding − 字符串的最终编码。如果为 None,将返回一个 Unicode 字符串。

  2. 一个 Formatter 对象,或一个指定标准格式化程序之一的字符串。

Return Type

prettify() 方法返回 Unicode 字符串(如果编码==无)或字节串(否则)。

Example 1

考虑以下 HTML 字符串。

<p>The quick, <b>brown fox</b> jumps over a lazy dog.</p>

通过使用 prettify() 方法,我们可以更好地理解其结构 −

html = '''
<p>The quick, <b>brown fox</b> jumps over a lazy dog.</p>
'''
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "lxml")
print (soup.prettify())

Output

<html>
   <body>
      <p>
         The quick,
      <b>
         brown fox
      </b>
         jumps over a lazy dog.
      </p>
   </body>
</html>

Example 2

您可以在文档中的任何标记对象上调用 prettify()。

print (soup.b.prettify())

Output

<b>
   brown fox
</b>

prettify() 方法用于理解文档的结构。但是,它不应该用于重新对其进行格式化,因为它会添加空白(采用新行的形式),并更改 HTML 文档的含义。

prettify() 方法可以选择提供 formatter 参数,以指定要使用的格式化。

以下是 formatter 的可能值。

formatter="minimal" − 它是默认值。将对字符串进行足够的处理以确保 Beautiful Soup 生成有效的 HTML/XML。

formatter="html" − 只要有可能,Beautiful Soup 将把 Unicode 字符转换为 HTML 实体。

formatter="html5" − 它类似于 formatter="html",但是 Beautiful Soup 将在 HTML 空标签(例如 "br")中省略结束斜杠。

formatter=None − Beautiful Soup 将不修改输出中的字符串。这是最快的选项,但可能导致 Beautiful Soup 生成无效的 HTML/XML。

Example 3

from bs4 import BeautifulSoup

french = "<p>Il a dit <<Sacré bleu!>></p>"
soup = BeautifulSoup(french, 'html.parser')
print ("minimal: ")
print(soup.prettify(formatter="minimal"))
print ("html: ")
print(soup.prettify(formatter="html"))
print ("None: ")
print(soup.prettify(formatter=None))

Output

minimal:
<p>
 Il a dit <
 <sacré bleu!="">
  >
 </sacré>
</p>
html:
<p>
 Il a dit <
 <sacré bleu!="">
  >
 </sacré>
</p>
None:
<p>
 Il a dit <
 <sacré bleu!="">
  >
 </sacré>
</p>