Scrapy 简明教程
Scrapy - Feed exports
Serialization Formats
通过使用多种序列化格式和存储后端,数据提要导出可使用项目导出器并根据抓取的项目生成提要。
下表展示受支持的格式:
Sr.No |
Format & Description |
1 |
JSON FEED_FORMAT 为 jsonExporter 使用的是 scrapy.exporters.JsonItemExporter 类 |
2 |
JSON lines FEED_FROMAT 为 jsonlinesExporter 使用的是 scrapy.exporters.JsonLinesItemExporter 类 |
3 |
CSV FEED_FORMAT 为 CSVExporter 使用的是 scrapy.exporters.CsvItemExporter 类 |
4 |
XML FEED_FORMAT 为 xmlExporter 使用的是 scrapy.exporters.XmlItemExporter 类 |
通过使用 FEED_EXPORTERS 设置,受支持的格式还可以得到扩展 −
Sr.No |
Format & Description |
1 |
Pickle FEED_FORMAT 为 pickelExporter 使用的是 scrapy.exporters.PickleItemExporter 类 |
2 |
Marshal FEED_FORMAT 为 marshalExporter 使用的是 scrapy.exporters.MarshalItemExporter 类 |
Storage Backends
存储后端定义了在何处存储使用 URI 的数据提要。
下表展示了受支持的存储后端 −
Sr.No |
Storage Backend & Description |
1 |
Local filesystem URI 方案为 file,它用于存储数据提要。 |
2 |
FTP URI 方案为 ftp,它用于存储数据提要。 |
3 |
|
4 |
Standard output URI 方案为 stdout 数据提要存储在标准输出。 |
Settings
下表显示了用于配置 Feed 导出的设置:
Sr.No |
Setting & Description |
1 |
FEED_URI 这是用于启用 Feed 导出的导出 Feed 的 URI。 |
2 |
FEED_FORMAT 这是用于 Feed 的序列化格式。 |
3 |
FEED_EXPORT_FIELDS 用于定义需要导出的字段。 |
4 |
FEED_STORE_EMPTY 它定义是否导出没有项目的 Feed。 |
5 |
FEED_STORAGES 它是一个具有其他 Feed 存储后端的字典。 |
6 |
FEED_STORAGES_BASE 它是一个具有内置 Feed 存储后端的字典。 |
7 |
FEED_EXPORTERS 它是一个具有其他 Feed 导出的字典。 |
8 |
FEED_EXPORTERS_BASE 它是一个具有内置 Feed 导出的字典。 |