Skip to main content

部署蜘蛛

本节介绍部署Scrapy蜘蛛以定期运行它们的不同选项。在本地机器中运行Scrapy spiders对于(早期)开发阶段非常方便,但是当您需要执行长时间运行的蜘蛛程序或移动蜘蛛程序在生产中连续运行时,并不是那么多。这就是部署Scrapy蜘蛛的解决方案。

部署Scrapy蜘蛛的常见选择是:

部署到Scrapyd服务器

Scrapyd 是一个运行Scrapy蜘蛛的开源应用程序。它提供了一个具有HTTP API的服务器,能够运行和监视Scrapy spiders。

要将Spiders部署到Scrapyd,您可以使用 scrapyd-client 软件包提供的scrapyd-deploy工具。有关详细信息,请参阅 scrapyd-deploy documentation

Scrapyd由一些Scrapy开发人员维护。

部署到Scrapy云

Scrapy Cloud 是由 Scrapinghub 托管的基于云的服务,Scrapinghub 是Scrapy背后的公司。

Scrapy Cloud不需要设置和监控服务器,并提供了一个漂亮的UI来管理蜘蛛和审查刮取的项目,日志和统计信息。

要将Spiders部署到Scrapy Cloud,您可以使用 shub 命令行工具。有关详细信息,请参阅 Scrapy Cloud documentation

Scrapy Cloud与Scrapyd兼容,可以根据需要在它们之间切换 - 配置是从 scrapy.cfg 文件读取,就像 scrapyd-deploy