想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓到呢? 最好是用python
python 网页爬虫
如果对抓取的性能没有什么要求的话, 尝试一下selenium或者watir吧. web自动化测试脚本用好了可以做很多事情. 利用你的浏览器执行好js, 然后再从dom里面取数据.
另外一个情况, 如果你知道js是通过ajax或者api取数据的, 直接去抓数据源, 得到的不是json就是xml, 然后处理数据吧
BeautifulSoup 用 .find(text=True) 找不到 table 里边的文字
python的requests登录到知乎
scrapy模拟登陆知乎出现重定向无法登陆问题
Python requests 多线程抓取 出现HTTPConnectionPool Max ...
python爬虫怎么在网易博客发表评论
python爬虫模拟登陆,post后如何返回retUrl