lazybios

scrapy爬取分页的小技巧

爬取分页

其实超级简单,在spider中间中根据规则设置start_urls,具体的callback函数还是parse()


start_urls = ["http://xxx.com/page/%s" nu for nu in xrange(1,20)]


此外两个方向是使用yield关键字代替return,另外一个是使用CrawlSpider代替BaseSpider,定义rule规则,这两个我也没有实践,就不多说了,有痛点得自行探索一下,另外说一个download_delay参数

DOWNLOAD_DELAY

DOWNLOAD_DELAY这个参数用来,伪装调节访问速度,为防止触发服务器策略被禁掉ip,单位为秒,等待的时长同时受到RANDOMIZE_DOWNLOAD_DELAY的影响,即当你访问统一个站点的时候,其间隔时间是一个随机变量, 介于0.5和1.5*DOWNLOAD_DELAY直接,默认该设置是开启的,如果DOWNLOAD_DELAY设置为0,则该项设置无效!

微信关注「日拱一卒」公众号