使用Firefox刮¶
这里是一个使用Firefox刮擦的提示和建议的列表,以及一个有用的Firefox附件的列表,以减轻刮削过程。
注意检查实时浏览器DOM¶
由于Firefox附加元件在实时浏览器DOM上操作,因此在检查页面源时实际看到的不是原始HTML,而是在应用某些浏览器清理并执行Javascript代码之后的修改。特别地,Firefox已知为将 <tbody>
元素添加到表。另一方面,Scrapy不会修改原始页面的HTML,因此如果在XPath表达式中使用 <tbody>
,您将无法提取任何数据。
因此,在使用Firefox和XPath时,应注意以下事项:
在检查DOM期间禁用Firefox Javascript,查找要在Scrapy中使用的XPath
不要使用完整的XPath路径,基于属性(如
id
,class
,width
等)或任何标识功能(如contains(@href, 'image')
)使用相对和聪明的路径。不要在你的XPath表达式中包含
<tbody>
元素,除非你真的知道你在做什么
有用的Firefox附件的刮¶
Firebug¶
Firebug 是一个广为人知的工具,Web开发人员,它也非常有用的刮。特别地,当您需要构建XPath来提取数据时,它的 Inspect Element 功能非常方便,因为它允许您在将鼠标移动到其上时查看每个页面元素的HTML代码。
有关如何使用Firebug与Scrapy的详细指南,请参阅 使用Firebug进行刮。
XPath检查器¶
XPath Checker 是另一个Firefox附件,用于在您的网页上测试XPath。
篡改数据¶
Tamper Data 是一个Firefox附加组件,允许您查看和修改Firefox发送的HTTP请求标头。 Firebug还允许查看HTTP头,但不能修改它们。
Firecookie¶
Firecookie 使查看和管理Cookie变得更加容易。您可以使用此扩展程序创建新的Cookie,删除现有的Cookie,查看当前网站的Cookie列表,管理Cookie权限等等。