Scrapy 简明教程
Scrapy - Overview
Scrapy 是一个使用 Python 编写的高速、开放源代码 Web 爬取框架,它用于借助基于 XPath 的选择器从网页提取数据。
Scrapy 最初于 2008 年 6 月 26 日发布,并获得 BSD 许可,并在 2015 年 6 月发布了 1.0 里程碑版本。
Why Use Scrapy?
-
构建和扩展大型爬取项目更为轻松。
-
它具有一个内置机制,称为选择器,用于从网站中提取数据。
-
它以异步方式处理请求,且速度很快。
-
它使用 Auto-throttling mechanism 自动调整爬取速度。
-
Ensures developer accessibility.
Features of Scrapy
-
Scrapy 是一个开源且免费的 web 爬取框架。
-
Scrapy 生成以 JSON、CSV 和 XML 等格式进行馈送导出的数据。
-
Scrapy 内置了通过 XPath 或 CSS 表达式从来源中选择和提取数据的支持。
-
基于爬虫的 Scrapy 允许自动从网页中提取数据。