google: 66.249.66.98
microsoft: 65.54.188.105~107
yahoo: 68.142.249.183; 68.142.251.124
为了知道本站的访问来源,加了记录IP的功能,今天发现上面两个IP出现得频率很高,估计是搜索引擎,上www.123cha.com一查,果然如此。
从log记录中看,这两个搜索引擎访问网站的脾气也很有意思:
google是基本不间断的一阵猛吃(3~7秒一次,延续了3分钟),然后今天就不来光顾了;
而microsoft的3个IP是间断访问的,在一天中都有分布。时间间隔也不定,几秒到几分钟,几十分钟不等,没有规律性,也不知道microsoft的这3个IP之间有没有协作关系,比如:是否重复访问了一个页面?
对待搜索引擎的造访,像我们这样的无名小站倒是热烈欢迎它这位客人,因为它可以让更多的人找到我们;但是对一些用户多倒是资源不足的网站却是一个问题,因为它要占网络资源,
比如:http://www.javaresearch.org/jr/thread.jsp?column=376&thread=40769(转帖)
今天屏蔽了sohu的两个爬虫 发表时间: 2005-11-03 14:56
今天屏蔽了sohu的两个爬虫。这两个爬虫根本不理会robots.txt文件的规定,并且非常疯狂,来自IP:220.181.26.110 和 220.181.26.112。 平均1分钟内爬过177 个页面,我们做了Filter,对他进行限制,但这个爬虫根本不予理会,Filter拒绝了他的页面,他会反复地隔13~15″左右继续。并且每一个连接都开一个新的session,导致jr的session数目在短短的半个小时就上升到5000多个。这和攻击没有什么两样。
所以,只能对这个爬虫说“NO”。
屏蔽这两个IP后,在短短10几分钟,Session数目从恐怖的5000多下降到2000多,并且还在直线下降。预计应该在30分钟后下降到几百的正常水平。
近期关于爬虫的“职业道德”的讨论不少,下面给出几个连接,如果你发现你的站近期异常,可以查查看是不是来自爬虫的“攻击”所致。
上面是来自JR的文章,上面提到的搜索引擎每一次访问都开一个session倒是我很早就发现的,但是不知道搜索引擎为什么不能保持session?
现在访问JR的blog,有的时候连续访问了3~4个页面就出现“你请求页面的频率太高,请稍后,200秒后自动定向到你要访问的页面。 ”,而200秒后往往不能“自动定向到你要访问的页面。”,JR为了预防资源的消耗,却极大的干扰了用户的一般正常使用,这似乎有点过左了?
也不知道JR的资源消耗是一种怎么样的紧张状态,否则,他们不会出此下策吧?