Scrapy 简明教程

Scrapy - Feed exports

Description

数据提要导出是一种存储从网站抓取数据的技术,即生成 "export file"

Serialization Formats

通过使用多种序列化格式和存储后端,数据提要导出可使用项目导出器并根据抓取的项目生成提要。

下表展示受支持的格式:

Sr.No

Format & Description

1

JSON FEED_FORMAT 为 jsonExporter 使用的是 scrapy.exporters.JsonItemExporter 类

2

JSON lines FEED_FROMAT 为 jsonlinesExporter 使用的是 scrapy.exporters.JsonLinesItemExporter 类

3

CSV FEED_FORMAT 为 CSVExporter 使用的是 scrapy.exporters.CsvItemExporter 类

4

XML FEED_FORMAT 为 xmlExporter 使用的是 scrapy.exporters.XmlItemExporter 类

通过使用 FEED_EXPORTERS 设置,受支持的格式还可以得到扩展 −

Sr.No

Format & Description

1

Pickle FEED_FORMAT 为 pickelExporter 使用的是 scrapy.exporters.PickleItemExporter 类

2

Marshal FEED_FORMAT 为 marshalExporter 使用的是 scrapy.exporters.MarshalItemExporter 类

Storage Backends

存储后端定义了在何处存储使用 URI 的数据提要。

下表展示了受支持的存储后端 −

Sr.No

Storage Backend & Description

1

Local filesystem URI 方案为 file,它用于存储数据提要。

2

FTP URI 方案为 ftp,它用于存储数据提要。

3

S3 URI 方案为 S3,数据提要存储在 Amazon S3 上。需要 botocoreboto 外部库。

4

Standard output URI 方案为 stdout 数据提要存储在标准输出。

Storage URI Parameters

以下是存储 URL 的参数,在创建数据提要时替换它 −

  1. %(time)s:此参数替换为时间戳。

  2. %(name)s:此参数替换为爬虫名称。

Settings

下表显示了用于配置 Feed 导出的设置:

Sr.No

Setting & Description

1

FEED_URI 这是用于启用 Feed 导出的导出 Feed 的 URI。

2

FEED_FORMAT 这是用于 Feed 的序列化格式。

3

FEED_EXPORT_FIELDS 用于定义需要导出的字段。

4

FEED_STORE_EMPTY 它定义是否导出没有项目的 Feed。

5

FEED_STORAGES 它是一个具有其他 Feed 存储后端的字典。

6

FEED_STORAGES_BASE 它是一个具有内置 Feed 存储后端的字典。

7

FEED_EXPORTERS 它是一个具有其他 Feed 导出的字典。

8

FEED_EXPORTERS_BASE 它是一个具有内置 Feed 导出的字典。