scrapy抓取知乎话题下的子话题的url

发表于 2016-05-09 | | 阅读次数

Atom好用插件推荐

发表于 2016-05-09 | | 阅读次数

atom好用的插件推荐： 1. atom-prettify 作用：让html更好地显示安装：apm install atom-prettify 2. Markdown-assistant 作用：Markdown书写 3. qiniu-uploader 功能：七牛图床

阅读全文 »

Pycharm怎么用

发表于 2016-05-09 | | 阅读次数

阅读全文 »

scrapy 在不同的抓取级别的Request之间传递参数的办法

发表于 2016-05-09 | | 阅读次数

scrapy 在不同的抓取级别的Request之间传递参数的办法，下面的范例中，parse_item通过meat传递给了parse_details参数item，这样就可以再parse_details抓取完成所有的数据后一次返回 1234567891011121314151617181920212 ...

阅读全文 »

scrapy登录知乎以及相关问题

发表于 2016-05-06 | | 阅读次数

因为想爬虫知乎的数据，所以采用scrapy来进行爬虫对于一般的问题的链接以及相关的内容不需要登录，但是对于用户的关注数据，必须得登录之后才能获取所以，通过scrapy登录在登录的过程中，碰到了一点问题：验证码获取问题本来是想通过xpath来获取，通过shell调试后，发现无论怎么获取都是 ...

阅读全文 »

关于scrapy没有跳转到下一个链接

发表于 2016-05-05 | 分类于 error | | 阅读次数

刚刚遇到一个奇怪的问题，代码应该是没有错误的内容是这样的，准备在关于知乎的一个话题下，爬取所有问题的url保存到数据库中但是，最后写了循环到yield scrapy.Request，但是没有成功的跳转，不知道问题所在就去segmentfalt发帖问了上个厕所回来，发现自己代码有问题，从头开始看，原来 ...

阅读全文 »

关于scarpy ip的bug

发表于 2016-05-04 | 分类于 error | | 阅读次数

先描述一下问题：在学习《Learning Scrapy》的过程中，根据ch03的代码，下载了Docker，然后Docker的地址为192.168.99.100，为了图方便，没有修改hosts的内容，在代码中，直接使用ip作为start urls，然后，无法爬取下一个页面，一直是以为是Rule写错了 ...

阅读全文 »