scrapy爬虫，其中一个页面带有ajax请求和另外一个链接，这两个分支应该怎么处理？

0 0

scrapy爬虫，其中一个页面带有ajax请求和另外一个链接，这两个分支应该怎么处理？

图片描述

写个scrapy爬虫，页面结构如图所示：
1、开始页是一个列表页，有100页，用for循环生成网址；
2、每个列表页有10个项，每个项有一个通向详情页的url，用parse()函数循环获取每页的这10个url，将url提交到爬取详情的parseContent()函数；
3、parseContent()函数进行爬取每个详情页。问题在这里，详情页有两个分支，一个是扩展页，另一个是一个ajax请求，需要登录才会显示，是js代码，源代码中找不到，所以在parseContent()函数中拼接ajax请求地址。不太明白的是：
（1）、拼接好这个ajax请求地址后，是提交到另外一个函数来处理内容，还是在parseContent()本函数中就可以直接处理；
（2）、如果是在parseContent()本函数中处理，那么代码怎么写，自己写了个跑不通，出错了；
（3）、如果是提交到另外一个函数处理，那么，由于还有一个扩展页，还要提交到parseEXtension()函数爬取扩展页面，所以就存在两个分支，这两个分支怎么同时爬取？

scrapy python2.7

9 years, 7 months ago

virgo

virgo 9 years, 7 months ago

scrapy爬虫，其中一个页面带有ajax请求和另外一个链接，这两个分支应该怎么处理？

virgo

Answers

Your Answer