scrapy爬虫,其中一个页面带有ajax请求和另外一个链接,这两个分支应该怎么处理?
写个scrapy爬虫,页面结构如图所示:
1、开始页是一个列表页,有100页,用for循环生成网址;
2、每个列表页有10个项,每个项有一个通向详情页的url,用parse()函数循环获取每页的这10个url,将url提交到爬取详情的parseContent()函数;
3、parseContent()函数进行爬取每个详情页。问题在这里,详情页有两个分支,一个是扩展页,另一个是一个ajax请求,需要登录才会显示,是js代码,源代码中找不到,所以在parseContent()函数中拼接ajax请求地址。不太明白的是:
(1)、拼接好这个ajax请求地址后,是提交到另外一个函数来处理内容,还是在parseContent()本函数中就可以直接处理;
(2)、如果是在parseContent()本函数中处理,那么代码怎么写,自己写了个跑不通,出错了;
(3)、如果是提交到另外一个函数处理,那么,由于还有一个扩展页,还要提交到parseEXtension()函数爬取扩展页面,所以就存在两个分支,这两个分支怎么同时爬取?
virgo
9 years, 1 month ago