爬虫如何设置代理爬被墙网站内容


目标: 想要爬被墙网站的内容.如爬去google自定义搜索的结果,但在国内google经常无法连接,在程序中也无法访问. 不仅在本地能爬去到数据,而且想要将该爬虫代码部署到搭建的对外网站上也能爬取(VPS能翻墙,不知道SAE上的cron能不能翻墙爬数据呢)
自己想了几种解决方式,但都不能稳定爬取数据.
1.网上找了免费的代理ip,在程序中将ip和端口设置为该值,大部分都报Connection timeout.
2.本地启动goagent,程序中将ip和端口设置为goagent默认的:127.0.0.1:8087,网上有通过这种方案实现,但我本地运行时出现证书问题,暂时没解决.

求大牛指导。。

java 网页爬虫

qnxsgwy 10 years, 3 months ago

把服務器搬到外國

bee三倍速 answered 10 years, 3 months ago

我现在用的翻墙利器。
https://github.com/clowwindy/shadowsocks

海星使sama answered 10 years, 3 months ago

Your Answer