学习日记

正在关注 Linux 、开源的个人博客。

首页 | 学习日记小店 | MobileMate | 标签云 | 留言本 | 登录 |

搜索引擎的本站IP访问分析;关于搜索引擎爬虫灾害转帖

2006年03月23日 下午 6:06 | 作者:littlebat

google:    66.249.66.98

microsoft: 65.54.188.105~107

yahoo:     68.142.249.183; 68.142.251.124

  为了知道本站的访问来源,加了记录IP的功能,今天发现上面两个IP出现得频率很高,估计是搜索引擎,上www.123cha.com一查,果然如此。

  从log记录中看,这两个搜索引擎访问网站的脾气也很有意思:

  google是基本不间断的一阵猛吃(3~7秒一次,延续了3分钟),然后今天就不来光顾了;

  而microsoft的3个IP是间断访问的,在一天中都有分布。时间间隔也不定,几秒到几分钟,几十分钟不等,没有规律性,也不知道microsoft的这3个IP之间有没有协作关系,比如:是否重复访问了一个页面?

  对待搜索引擎的造访,像我们这样的无名小站倒是热烈欢迎它这位客人,因为它可以让更多的人找到我们;但是对一些用户多倒是资源不足的网站却是一个问题,因为它要占网络资源,

比如:http://www.javaresearch.org/jr/thread.jsp?column=376&thread=40769(转帖)

今天屏蔽了sohu的两个爬虫  发表时间: 2005-11-03 14:56  

 

今天屏蔽了sohu的两个爬虫。这两个爬虫根本不理会robots.txt文件的规定,并且非常疯狂,来自IP:220.181.26.110 和 220.181.26.112。 平均1分钟内爬过177 个页面,我们做了Filter,对他进行限制,但这个爬虫根本不予理会,Filter拒绝了他的页面,他会反复地隔13~15″左右继续。并且每一个连接都开一个新的session,导致jr的session数目在短短的半个小时就上升到5000多个。这和攻击没有什么两样。

所以,只能对这个爬虫说“NO”。

屏蔽这两个IP后,在短短10几分钟,Session数目从恐怖的5000多下降到2000多,并且还在直线下降。预计应该在30分钟后下降到几百的正常水平。

近期关于爬虫的“职业道德”的讨论不少,下面给出几个连接,如果你发现你的站近期异常,可以查查看是不是来自爬虫的“攻击”所致。

  上面是来自JR的文章,上面提到的搜索引擎每一次访问都开一个session倒是我很早就发现的,但是不知道搜索引擎为什么不能保持session?

 

版权所有。转载时必须以链接形式注明作者和原始出处及本声明。

相关日记

随机日记

添加到网摘

[del.icio.us]  [新浪 VIVI]  [365key]  [YouNote]  [博采中心]  [Poco]  [SOHU狐摘]  [天极网摘]  [和讯网摘] 

评论(1 条评论)

  1.   现在访问JR的blog,有的时候连续访问了3~4个页面就出现“你请求页面的频率太高,请稍后,200秒后自动定向到你要访问的页面。 ”,而200秒后往往不能“自动定向到你要访问的页面。”,JR为了预防资源的消耗,却极大的干扰了用户的一般正常使用,这似乎有点过左了?

      也不知道JR的资源消耗是一种怎么样的紧张状态,否则,他们不会出此下策吧?


Copyright © 2004-2010 www.learndiary.com(学习日记)
Powered by WordPress with theme by UCDCHINA for Blogool come from JunChen Wu, nowa
联系版主:dashing.meng at gmail dot com。2004.7.25
遂公网安备51092202000173