Skip to main content

Scrapy 1.3 文档

本文档包含您需要了解的关于Scrapy的所有内容。

获得帮助

遇到麻烦?我们想帮助!

第一步

Scrapy一览

了解Scrapy是什么,它如何可以帮助你。

安装指南

在您的计算机上安装Scrapy。

Scrapy教程

编写您的第一个Scrapy项目。

例子

通过玩一个预制的Scrapy项目了解更多。

基本概念

命令行工具

了解用于管理Scrapy项目的命令行工具。

蜘蛛

编写规则以抓取您的网站。

选择器

使用XPath从网页中提取数据。

Scrapy壳

在交互式环境中测试提取代码。

项目

定义要清除的数据。

项目加载器

使用提取的数据填充您的项目。

项目管道

后处理和存储您已删除的数据。

饲料出口

使用不同的格式和存储输出您已删除的数据。

请求和响应

了解用于表示HTTP请求和响应的类。

链接提取器

方便的类来提取链接,从页面。

设置

了解如何配置Scrapy并查看所有 可用设置

例外

查看所有可用的异常及其含义。

内置服务

记录

了解如何在Scrappy中使用Python的内置日志记录。

统计数据

收集有关您的抓取工具的统计信息。

发送电子邮件

发生特定事件时发送电子邮件通知。

Telnet控制台

使用内置的Python控制台检查正在运行的搜寻器。

网络服务

使用Web服务监控和控制搜寻器。

解决具体问题

经常问的问题

获取常见问题的解答。

调试蜘蛛

了解如何调试您的scrapy蜘蛛的常见问题。

蜘蛛合同

了解如何使用合同测试您的蜘蛛。

常见做法

熟悉一些Scrapy常用做法。

广泛爬行

调整Scrapy以并行爬取许多域。

使用Firefox刮

了解如何使用Firefox和一些有用的附加组件。

使用Firebug进行刮

学习如何有效地使用Firebug。

调试内存泄漏

了解如何查找和摆脱爬网程序中的内存泄漏。

下载和处理文件和图像

下载与您抓取的项目相关联的文件和/或图片。

部署蜘蛛

部署Scrapy蜘蛛并在远程服务器中运行它们。

AutoThrottle扩展

根据负载动态调整抓取速度。

基准

检查Scrapy如何在硬件上执行。

作业:暂停和恢复爬网

了解如何暂停和恢复大型蜘蛛的抓取。

扩展Scrapy

建筑概述

了解Scrapy架构。

下载中间件

自定义请求和下载网页的方式。

蜘蛛中间件

自定义您的蜘蛛的输入和输出。

扩展

使用您的自定义功能扩展Scrapy

核心API

在扩展和中间件上使用它来扩展Scrapy功能

信号

查看所有可用信号以及如何使用它们。

项目出口商

将您抓取的项目快速导出到文件(XML,CSV等)。

其他的

发行说明

看看最近的Scrapy版本有什么变化。

有助于Scrapy

了解如何为Scrapy项目做出贡献。

版本控制和API稳定性

了解Scrapy版本控制和API稳定性。