Beautiful Soup 简明教程

Beautiful Soup Tutorial

在本教程中,我们将向您展示如何使用 Beautiful Soup 4 在 Python 中执行网络爬取,以从 HTML、XML 和其他标记语言中获取数据。在这里,我们将尝试从各种不同网站(包括 IMDB)中爬取网页。我们将介绍 beautiful soup 4、python 基本工具,用于有效且清晰地导航、搜索和解析 HTML 网页。

在本教程中,我们已尝试介绍 Beautiful Soup 4 的几乎所有功能。你可以将本教程中介绍的多个功能整合到一个更大的程序中,从网站中捕获多个有意义的数据,作为输入放入其他子程序。

Audience

本教程基本上旨在指导你抓取一个网页。所有这一切的基本要求是从大量的无组织数据集中获取有意义的数据。本教程的目标受众可以是任何人——

  1. 任何想要了解如何使用 BeautifulSoup 在 python 中抓取网页的人。

  2. 任何数据科学开发者/爱好者或任何人,都可以使用这些抓取的(有意义的)数据到不同的 Python 数据科学库,以便做出更好的决策。

Prerequisites

尽管本教程没有强制性要求。但是,如果您对任何以下提及的技术有任何或全部(超炫)的先验知识,将是一个附加优势−

  1. 了解任何与 Web 相关的技术(如 HTML/CSS/文档对象模型)。

  2. Python 语言(因为它是一个 Python 包)。

  3. 具有任何语言中抓取先验知识的开发者。

  4. 基本理解 HTML 树结构。