Telnet控制台¶
Scrapy附带了一个内置的telnet控制台,用于检查和控制Scrapy运行进程。 telnet控制台只是一个在Scrapy进程中运行的普通python shell,所以你可以从中做任何事情。
telnet控制台是一个 内置Scrapy扩展 默认启用,但你也可以禁用它,如果你想要的。有关扩展本身的更多信息,请参阅 Telnet控制台扩展。
如何访问telnet控制台¶
telnet控制台侦听在 TELNETCONSOLE_PORT
设置中定义的TCP端口,默认为 6023
。要访问控制台,您需要键入:
telnet localhost 6023
>>>
你需要telnet程序,默认安装在Windows和大多数Linux发行版。
telnet控制台中的可用变量¶
telnet控制台就像一个在Scrapy进程中运行的普通Python shell,所以你可以从中做任何事情,包括导入新的模块等。
但是,telnet控制台附带一些为方便起见定义的默认变量:
捷径 |
描述 |
---|---|
|
Scrapy抓取工具( |
|
Crawler.engine属性 |
|
活跃的蜘蛛 |
|
发动机槽 |
|
Extension Manager(Crawler.extensions属性) |
|
Stats Collector(Crawler.stats属性) |
|
Scrapy设置对象(Crawler.settings属性) |
|
打印发动机状态的报告 |
|
内存调试(参见 调试内存泄漏) |
|
pprint.pprint 功能的快捷方式 |
|
内存调试(参见 调试内存泄漏) |
Telnet控制台使用示例¶
以下是您可以使用telnet控制台执行的一些示例任务:
查看引擎状态¶
您可以使用Scrapy引擎的 est()
方法,使用telnet控制台快速显示其状态:
telnet localhost 6023
>>> est()
Execution engine status
time()-engine.start_time : 8.62972998619
engine.has_capacity() : False
len(engine.downloader.active) : 16
engine.scraper.is_idle() : False
engine.spider.name : followall
engine.spider_is_idle(engine.spider) : False
engine.slot.closing : False
len(engine.slot.inprogress) : 16
len(engine.slot.scheduler.dqs or []) : 0
len(engine.slot.scheduler.mqs) : 92
len(engine.scraper.slot.queue) : 0
len(engine.scraper.slot.active) : 0
engine.scraper.slot.active_size : 0
engine.scraper.slot.itemproc_size : 0
engine.scraper.slot.needs_backout() : False
暂停,恢复和停止Scrapy引擎¶
暂停:
telnet localhost 6023
>>> engine.pause()
>>>
恢复:
telnet localhost 6023
>>> engine.unpause()
>>>
停止:
telnet localhost 6023
>>> engine.stop()
Connection closed by foreign host.