连续几周如此,联通电信会变,每次访问ip会变,访问时间0,频率很高,地区不变,是不是有人采集我的站?如何避免?谢谢!
php 统计 JavaScript 采集
避免是很难的,只能说尽量提高抓取的成本。
常见都是在nginx或者程序中加入频率限制(rate limit)
楼上都没答到点子上,一般采集无非就是用硬抓取,如file_get_contents,和模拟抓取,如casperjs,我曾经用casperjs来写爬虫,速度实在太慢,所以casperjs爬虫不太可行,如果只是像file_get_contents之类的,后台分析日志,凡是加载的网页没有加载对应的css和js文件的,全部ban掉 希望写小偷程序的人不要看到这个答案,要不除了限制请求频率根本没法了,哦忘了,我就是专门写小偷程序的
cnzz统计的问题,加个谷歌统计对比下,流量差距就出来了,有10倍左右,猜测应该是百度蜘蛛之类的,识别为用户了,我的展也这样
you can't.
关键是你又希望搜索引擎来爬你;
所以这是矛盾的,
只能尽量做好;
在robots.txt中添加屏蔽抓取的策略,就能少被采集了
1、采用动态不规则的html标签 2、限制IP
和搜索引擎没有矛盾的,完全可以用nginx判断是否是搜索引擎爬虫,指引到一个固定的html结构的里边,以前就这样做过
把网站关了即可.
Chrome里使用"复制图片",有没有可能在另一个窗口将该图传递给后端?
接口返回的json数据报错,里面含有HTML和双引号没有转义,如何破??
单页与后端模版渲染方式的取舍?
AJXA+PHP的并发问题
对于现网遇到的非必现的bug,除了打日志,还有什么办法么?
HTML点击图片出现选择文件框并能够提交表单进行验证