Python爬虫: [urllib2.HTTPError: HTTP Error 403: Forbidden]


昨天爬豆瓣,没有出现过错误,今早爬成功了一次,接着全部报错。
个人推测,问题在于网站禁止爬虫,如何伪装成浏览器访问?
根据 这个stackoverflow答案 改写,没有成功,仍然出现Error 403

python 网络爬虫 网页爬虫

夜..... 11 years, 10 months ago

不要爬页面了,直接爬api更速度, http://developers.douban.com/wiki/?title=guide

上面说每分钟40次可以忽视,实际上爬出的速度很快的,1小时用python能爬3W+本书吧,不过有时会封IP,不过过一段时间就好了

猫猫D尛猫 answered 11 years, 10 months ago

Your Answer