如何爬取百度指数的数据?


百度指数的查询地址: http://index.baidu.com
比如说我输入:世界杯。

查询到的结果数字并不是文本的形式,不知道应该如何抓取?

希望各位大神指教!

编程 python 网页爬虫

j.a.y 10 years, 5 months ago

ajax的吧 看看ajax里的请求返回数据吧

yaksa answered 10 years, 4 months ago

大致步骤如下:

  1. 要前往这个页面登录,获取会话 cookie;
  2. 使用获取到的 cookie 访问指数查询的 URL(此处使用“google io”):http://index.baidu.com/?tpl=trend&word=google+io;
  3. 根据获取到页面中的 Javascript,拼接相关 AJAX 请求 URL,使用获取到的 cookie 重新请求该 URL,返回的内容即是你要的东西。

可能需要用到的第三方库:

  • BeautifulSoup
  • scrapy
SUNWEI answered 10 years, 3 months ago

Your Answer