Skip to main content

使用Firefox刮

这里是一个使用Firefox刮擦的提示和建议的列表,以及一个有用的Firefox附件的列表,以减轻刮削过程。

注意检查实时浏览器DOM

由于Firefox附加元件在实时浏览器DOM上操作,因此在检查页面源时实际看到的不是原始HTML,而是在应用某些浏览器清理并执行Javascript代码之后的修改。特别地,Firefox已知为将 <tbody> 元素添加到表。另一方面,Scrapy不会修改原始页面的HTML,因此如果在XPath表达式中使用 <tbody>,您将无法提取任何数据。

因此,在使用Firefox和XPath时,应注意以下事项:

  • 在检查DOM期间禁用Firefox Javascript,查找要在Scrapy中使用的XPath

  • 不要使用完整的XPath路径,基于属性(如 idclasswidth 等)或任何标识功能(如 contains(@href, 'image'))使用相对和聪明的路径。

  • 不要在你的XPath表达式中包含 <tbody> 元素,除非你真的知道你在做什么

有用的Firefox附件的刮

Firebug

Firebug 是一个广为人知的工具,Web开发人员,它也非常有用的刮。特别地,当您需要构建XPath来提取数据时,它的 Inspect Element 功能非常方便,因为它允许您在将鼠标移动到其上时查看每个页面元素的HTML代码。

有关如何使用Firebug与Scrapy的详细指南,请参阅 使用Firebug进行刮

XPather

XPather 允许您直接在页面上测试XPath表达式。

XPath检查器

XPath Checker 是另一个Firefox附件,用于在您的网页上测试XPath。

篡改数据

Tamper Data 是一个Firefox附加组件,允许您查看和修改Firefox发送的HTTP请求标头。 Firebug还允许查看HTTP头,但不能修改它们。

Firecookie

Firecookie 使查看和管理Cookie变得更加容易。您可以使用此扩展程序创建新的Cookie,删除现有的Cookie,查看当前网站的Cookie列表,管理Cookie权限等等。