Scrapy 简明教程

Scrapy - Telnet Console

Description

Telnet 控制台是一个 Python 外壳,该外壳在 Scrapy 流程内部运行,用于检查和控制要运行的 Scrapy 流程。

Access Telnet Console

可以使用以下命令访问 telnet 控制台 −

telnet localhost 6023

基本上,telnet 控制台在 TELNETCONSOLE_PORT 中所述的 TCP 端口中列出。

Variables

下表中所述的某些默认变量用作快捷方式 −

Sr.No

Shortcut & Description

1

crawler 它引用 Scrapy 爬虫 (scrapy.crawler.Crawler) 对象。

2

engine 它引用 Crawler.engine 属性。

3

spider 它引用处于活动状态的爬虫。

4

slot 它引用引擎槽。

5

extensions 它引用扩展管理器 (Crawler.extensions) 属性。

6

stats 它引用状态收集器 (Crawler.stats) 属性。

7

setting 它引用 Scrapy 设置对象 (Crawler.settings) 属性。

8

est 它引用打印引擎状态报告。

9

prefs 它引用用于调试的内存。

10

p 它引用 pprint.pprint 函数的快捷方式。

11

hpy 它引用内存调试。

Examples

以下是使用 Telnet 控制台说明的一些示例。

Pause, Resume and Stop the Scrapy Engine

要暂停 Scrapy 引擎,请使用以下命令 -

telnet localhost 6023
>>> engine.pause()
>>>

要恢复 Scrapy 引擎,请使用以下命令 -

telnet localhost 6023
>>> engine.unpause()
>>>

要停止 Scrapy 引擎,请使用以下命令 -

telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.

View Engine Status

Telnet 控制台使用 est() 方法检查 Scrapy 引擎状态,如下面的代码中所示 -

telnet localhost 6023
>>> est()
Execution engine status

time()-engine.start_time                        : 8.62972998619
engine.has_capacity()                           : False
len(engine.downloader.active)                   : 16
engine.scraper.is_idle()                        : False
engine.spider.name                              : followall
engine.spider_is_idle(engine.spider)            : False
engine.slot.closing                             : False
len(engine.slot.inprogress)                     : 16
len(engine.slot.scheduler.dqs or [])            : 0
len(engine.slot.scheduler.mqs)                  : 92
len(engine.scraper.slot.queue)                  : 0
len(engine.scraper.slot.active)                 : 0
engine.scraper.slot.active_size                 : 0
engine.scraper.slot.itemproc_size               : 0
engine.scraper.slot.needs_backout()             : False

Telnet Console Signals

你可以使用 telnet 控制台信号在 telnet 本地命名空间添加、更新或删除变量。要执行此操作,你需要在处理程序中添加 telnet_vars 字典。

scrapy.extensions.telnet.update_telnet_vars(telnet_vars)

参数 -

telnet_vars (dict)

其中,dict 是一个包含 telnet 变量的字典。

Telnet Settings

下表显示控制 Telnet 控制台行为的设置 -

Sr.No

Settings & Description

Default Value

1

TELNETCONSOLE_PORT 这表示 telnet 控制台的端口范围。如果将其设置为 none,那么将动态分配端口。

[6023, 6073]

2

TELNETCONSOLE_HOST 这表示 telnet 控制台应侦听的接口。

'127.0.0.1'