百度和google对本站二度301重定向的反应

一个多两个月前,本站已经进行了一次301重定向,把域名www.learndiary.com和www.123go.org.cn用301重定向到了java.learndiary.com上,并把使用多个查询参数的url重定向了使用一个或两个参数的url。

昨天,我对本站的显示帖子的页面进行了静态化改造,于是,就来了又一次的301重定向。

今天,在百度中site:java.learndiary.com中没有什么变化。还是15,500,另外,我发现自从我做了上次的301重定向后,百度就停止了就本站进行新内容的索引。只有首页几天更新一次。我也不知道是不是301重定向的后果还是本站违反百度的相关规定。例如:最开始首页放入了超过200个链接,现在减下来了。或者,是否如有人说的,站上放太多google广告了?我这个是技术站点,放google的广告是特点所致。

从网站日志来看,Baiduspider还是在活动,比如:

从2006-12-16 04:26:28,890到2006-12-16 09:16:16,921共约5个小时,Baispider大约访问了80页面。这与重定向之前差太远,但是它还是要来的。不过,没有可能没把它访问的页面纳入搜索引擎结果,因为我近期的帖子用site:java.learndiary.com中搜索不到。

在上面的5个小时中,yahoo!大约访问了60页,google大约400页,sogou spider大约40页;不过sogou spider今天上午一直在活动。

针对于此,我将继续完善网站内容和提高用户的浏览体验并积极的查找应该是被百度惩罚了的原因。

这二度的301重定向后的第二天,我在google中site:java.learndiary.com还是1300多点,在这个数字上下维持了有半个月了,可能google的抓取规模在本站也就是这样的吧。

不过,不知道是不是可能有问题的301重定向(有的检测网站返回301,有的返回500)还是301重定向后的自然反应,今天看google的网站管理员工具我的网站 › http://java.learndiary.com/ › 摘要。发现:


索引状态: 

您网站的所有网页目前均未包含在 Google 索引中。

但是,还是像前面所提,site:java.learndiary.com没变什么。

下面是google报告的屏幕截图:

14 thoughts on “百度和google对本站二度301重定向的反应”

  1. 今天上午查的本站在google中的索引消失,今天晚上查又没有消失,而且搜索结果页还增加了10页:)。不知是不知google的技术故障还是我301重定向后的结果。

    又截图一张,不为有什么好大的价值,至少可以装点一下页面嘛:)

  2. 今天在百度中site:www.learndiary.com,突然发现收录的数量比原来又有很多的增加,达到了38600。

    看来,也许本站不是被百度惩罚,而是百度没有按我进行的301重定向行事。百度的算法判断www.learndiary.com的权重仍然高于java.learndiary.com,所以就放弃了在java.learndiary.com收录,而集中在www.learndiary.com中收录。

    或许我应该请求原来的友情链接全部改成现在的新域名:java.learndiary.com

    我现在也许有必要关掉www.learndiary.com和www.123go.org.cn这个域名?

    在google方面,这两天对本站二度重定向的反应不大稳定,在www.google.com中site:java.learndiary.com 昨天上午查已经收录了300个以上的301重定向后的*.html形式的url,晚上查这样的url收录又只剩下几个了,其余都是原来的*.do形式的url。

    今天上午,因为看了cherami的帖子,知道www.google.com和www.google.cn会有区别(见cherami的如何在中国使用Google(谷歌)),又重新在www.google.cn中site:java.learndiary.com,收录了100多个*.html的url。

    鉴于cherami的经历,把本站的google搜索框的服务器指定为:www.google.cn。我们是谈技术的,其它的不谈,用www.google.cn应该合适。

    继续观察中...

  3. 由于我的考虑不成熟,把原来*.do形式的url用301重定向到*.html的url,导致现在google在1~2天中重新收录了*.html的页面达到700页,差不多是本站有效页面的一半了。我现在因为把*.html的URL改成了*.jsp的URL,使这些*.html的url全部返回404找不到页面,导致来自google的流量比原来减少了差不多一半。也许,原来这700多页的网页的搜索排名也没了。可惜。当初考虑不成熟时,宁愿不重定向或用302临时重定向也不会造成现在这种情况。

    我猜想,google将渐渐删除这些*.html页,然后在本站重新收录*.jsp形式的页面。什么时候重新收录这些*.jsp形式的页面就不得而知了。

    真是深刻的教训。可见,网站建设中301重定向不是随便用的!除非考虑成熟。

    在google中site:www.learndiary.com有12,200条记录,但是全部标记为补充材料了;site:www.123go.org.cn有5,180条记录,只显示了2条,且是补充材料,其余说:


    为了提供最相关的结果,我们省略了与已显示的 2 个类似的条目。

    根据您的意愿,可将省略的结果纳入搜索范围后再重新搜索。

    百度方面还是老样子,*.html和*.jsp形式的新url好像还没收。

    百度仍然不在我301重定向后的java.learndiary.com中收录新页面。我不知道百度是怎么搞的,不认同一个网站的301重定向;另一方面,site:www.123go.org.cn只有一个首页了,看来百度在www.123go.org.cn的301重定向却认同了。搞不懂了。。。

    再等一段时间看看,实在不行,如果找到本站在百度的收录问题主要是有多个域名的原因,就断开www.123go.org.cn和www.learndiary.com的域名吧。

    如果我不做这个网站,这些所有的知识都不会知道。不管这个网站的走向如何,我都不会后悔当初的选择。

  4. 1、google的搜索流量已经连续2天低于来自百度的了。原来,在搜索引擎中,本站来自google的流量占大约70%左右,来自百度的占20%左右,其它10%左右;现在google的40%,百度的约50%,其它不变;都是301重定向失误造成的;

    2、从google的网站管理面板上看,google没有跟进iframe,因为我写进robots.txt中iframe的url没有在robots禁止的项目中报告;但是写进robots.txt的/count.do?artID=1这样的url报告了好几百,可见,google要跟进script中的网址!如果我不把这个url写进robots.txt,页面的计数就会虚增了;

    3、从google的网站管理面板上看,它报告本站没有包括进它的索引,像前几天一样;但是site:java.learndiary.com有1830页,从中看已经收录了大量了*.jsp后缀的网址;原来的*.html的网址有好几百个报告了404找不到;也许,这些404地页面应该很快从google的索引中去掉了;

    4、百度也在www.learndiary.com的域名下收录了一些*.jsp和少量的*.html的网址;而且,我发现百度会改写网址,例如:我把http://java.learndiary.com/goals/1.jsp是硬编码写死在网页中,它在www.learndiary.com的域名下收录的网址会改成http://www.learndiary.com/goals/1.jsp!虽然我后悔自己的301重定向错误使google的搜索流量大量减少,但是也觉得百度的算法不当。

    附百度中以"301"为关键字site:java.learndiary.com 301和site:www.learndiary.com 301的屏幕截图:

    1)、site:java.learndiary.com 301

    2)、site:www.learndiary.com 301

  5. 果然,如前几天一样,google管理工具上午还报告我的网站没有包含进他们的索引中。下午下班回来一查,又显示包含进了索引中。不知道了google在其中是怎样的处理和运算过程。屏幕截图如下:

  6. 在google.com中site:java.learndiary.com是1330,原来的*.html后缀的URL全部消失,大部分帖子的URL为*.jsp后缀的,还有一部分是*.do形式的没有变过来。

    感觉这些帖子的搜索排名因为301重定向失误受的影响不大,试了几个关键词(如学习struts,java参数传递,),好像(仅仅是好像)与原来*.do形式的时候差不多。难道google知道*.jsp后缀的帖子就是原来*.html形式的帖子吗(因为*.html的帖子是从*.do的帖子用301转过来的,所以一部分帖子的*.do和*.jsp后缀的URL在搜索引擎眼中我觉得是没有关联的)?

    继续观察中。。。

  7. 明确网站定位,启用java.learndiary.com的新域名的2006年9月23日到现在大约近4个月吧,今天查看google的网站管理界面,发现 "索引统计信息"各个项目全都有了值(原来的link: cache: related: 项目每次看都没有值),值的项目如下:


    操作符  说明  结果

    site: 您网站中的索引网页 site:java.learndiary.com

    link: 链接到您网站的网页 link:java.learndiary.com

    cache: 您网站的当前缓存 cache:java.learndiary.com

    info: 我们掌握的您网站的信息 info:java.learndiary.com

    related: 与您的网站类似的网页 related:java.learndiary.com

    site:java.learndiary.com为2400,site:www.learndiary.com为12200,site:www.123go.org.cn为5180。然后到http://www.123cha.com查了一下三个域名的google PR值,发现都是4了。原来的java.learndiary.com为0。看来,google已经“正式认可”了这个新启用的域名吧。

    我猜测,可能,下一步就是www.learndiary.com和www.123go.org.cn的收录页渐渐为0,并且PR为0。因为我是用301重定向把这两个域名整体都永久重定向到java.learndiary.com的。

    百度方面:

    site:java.learndiary.com是500多,site:www.learndiary.com是3500多,site:www.123go.org.cn是1。

    在java.learndiary.com仍然是好像没有收录*.jsp后缀的网址,在www.learndiary.com下收录了一些(尽管用301重定向了,百度修改了我硬编码写成的java.learndiary.com下的网址为www.learndiary.com下的)。而且,我加在robots.txt中的/main.do仍然在持续收录和更新(在我的印象中,这个/main.do的网址是没有暴露出来的,在把它写进robots.txt的禁止访问列表前在google中也搜不到)。

    继续关注中。。。

  8. 重定向设计到很多方面的问题,自己做爬虫的时候就很惧怕这种情况,不好处理,SE方面可能考虑到很多方面原因,有时候怕一些舞弊吧。。

  9. 如果很多没有规则的链接.删除后如何针对每一个链接做301定向?
    原 xxx.com/a001.html => xxx.com/a-001.html
    原 xxx.com/a002.html => xxx.com/c-005.html

Comments are closed.