Scrapy 简明教程

Scrapy - Overview

Scrapy 是一个使用 Python 编写的高速、开放源代码 Web 爬取框架,它用于借助基于 XPath 的选择器从网页提取数据。

Scrapy 最初于 2008 年 6 月 26 日发布,并获得 BSD 许可,并在 2015 年 6 月发布了 1.0 里程碑版本。

Why Use Scrapy?

  1. 构建和扩展大型爬取项目更为轻松。

  2. 它具有一个内置机制,称为选择器,用于从网站中提取数据。

  3. 它以异步方式处理请求,且速度很快。

  4. 它使用 Auto-throttling mechanism 自动调整爬取速度。

  5. Ensures developer accessibility.

Features of Scrapy

  1. Scrapy 是一个开源且免费的 web 爬取框架。

  2. Scrapy 生成以 JSON、CSV 和 XML 等格式进行馈送导出的数据。

  3. Scrapy 内置了通过 XPath 或 CSS 表达式从来源中选择和提取数据的支持。

  4. 基于爬虫的 Scrapy 允许自动从网页中提取数据。

Advantages

  1. Scrapy 可轻松扩展、并且快速而强大。

  2. 它是一个跨平台应用程序框架(Windows、Linux、Mac OS 和 BSD)。

  3. Scrapy 请求已安排并且已异步处理。

  4. Scrapy 带有一个内置的服务,称为 Scrapyd ,该服务允许使用 JSON web 服务上传项目和控制爬取。

  5. 有可能爬取任何网站,即使该网站没有用于原始数据访问的 API。

Disadvantages

  1. Scrapy 仅适用于 Python 2.7。

  2. 安装对于不同的操作系统来说是不同的。