带验证码数据采集实现可能性
数据网站:https://www.sgs.gov.cn/notice/home
参考网站:http://so.qudaba.com/search?name=%E4%B8%8A%E6%B5%B7&provice=SH&key=%E5%AE%9D%E8%B4%9D
请问下,参考网站里面的数据是通过采集数据网站来实现的么?感觉不太可能,这个数据量是非常大的,而且查询的搜索条件只能用公司名称或者注册号,每次搜索都会出现验证码,验证码都是很BT的那种,每次最多返回5条记录,采集起来搜索条件太多,速度慢。
还发现一个现象,搜索同一个词,两个网站结果排序都是一样的,是用的同一个库?应该不太可能,前一个是工商的网站,后面那个应该不是的,看了下请求,程序是用Thinkphp写的。
搜索结果对比
法兰西斯-猴
10 years ago