关于蜘蛛,如何提高抓取asp.net网站速度?
因为业务需要,需要经常抓取一些网站内部的数据,我们的程序通过模拟浏览器登陆,然后抓取,对于PHP、JAVA、ASP程序的网站基本不存在问题,最慢的也能保持一个页面大概25秒左右,基本满足需要,但少部分ASP.NET的网站由于数据的列表都被记录到
__VIEWSTATE
里,我们在抓取时,必须POST过去一个巨大无比的
__VIEWSTATE
变量,而带回页面的数据也含有一个巨大无比的
__VIEWSTATE
,而且没有经过gzip压缩,导致ASP.NET网站的速度基本都是巨慢无比,大概一个页面时间是10分钟左右,实在是太慢了,所有想请教,各位有没有办法能加快抓取asp.net网站的速度,如果我采用分布式,对于ASP.NET每个session抓取一部分,然后各自把抓取到的数据拼合在一起,是否会奏效?
cdqclq
11 years, 7 months ago