Scrapy 简明教程

Scrapy - Scraped Data

Description

存储抓取数据的最佳方法是使用 Feed 导出,这确保了使用多种序列化格式正确地存储数据。JSON、JSON 行、CSV、XML 是序列化格式中现有的格式。可以通过以下命令存储数据 −

scrapy crawl dmoz -o data.json

此命令将创建一个 data.json 文件,其中包含 JSON 格式的抓取数据。此方法适用于小量数据。如果必须处理大量数据,那么我们可以使用 Item Pipeline。就像 data.json 文件,在项目在 tutorial/pipelines.py 中创建时会设置保留文件。