scrapy内容分页抓取


一些网站的内容篇幅太长,分成多个分页,这样可以提高网站的PV量,抓取的时候就要写分页抓取规则,这个到简单,在scrapy用yield request方式抓取分页内容,(到现在都还没弄懂生成器是啥玩意。汗)怎么把这些内容合并成一篇完整的文章?目前我就卡在这个位置2天了一直尝试用优美的办法解决,但是无果,而且目前没有任何文章介绍这块的真奇怪。。难道大家都不抓取分页么。

scrapy

athans 9 years, 9 months ago

我的实现是先抓取后再根据抓取的结果合并, 我并不想scrapy做太多的事情.
例: 我在抓取一个书籍试读网站时, 先抓取他的分页页码并批量下载页面. 然后根据分页信息进行合并.

Cloness answered 9 years, 9 months ago

Your Answer