从百度针对淘宝用户开“绿色收录通道”质疑百度的行为操守

robots.txt是存放与网站根目录下的对搜索引擎爬虫列明抓取限制的文件。

淘宝近日在robots.txt里将百度爬虫完全禁止了,也就是说,不允许百度爬虫抓取taobao.com上任何页面。显然,淘宝这一举动是针对百度将要上线的C2C平台而做出的。

但根据新浪科技的采访报道,百度电子商务事业部总经理李明远表示百度正在酝酿绕过淘宝官方,为淘宝用户开辟“绿色通道”,由用户直接提交URL让百度收录。

(pic via

如果百度真的开辟了这个绿色通道,这将是对其行为操守的一个巨大的讽刺。

为什么这样说呢?

首先从robots.txt说起。

robots.txt能做什么?

1、限制某个搜索引擎不让其爬取

2、限制搜索引擎不让其抓取某些页面

3、其它限制

(pic via

淘宝的robots.txt里的内容如下:

User-agent: Baiduspider

Disallow: / 

User-agent: baiduspider

Disallow: /

大小写都用了,很明显是要限制百度爬虫,除非百度爬虫不叫baiduspider。

淘宝有权禁止搜索引擎抓取吗?

robots.txt是可以分级的

也就是说,二级域名根目录下也可以放置robots.txt。但是,顶级域名下的robots.txt的权限高于二级、三级域名下的robots.txt。

淘宝店铺URL使用的都是二级域名,不管这些店铺是否愿意被收录,只要taobao.com的robots.txt作出了限制,一切都是NO。

robots.txt规则

搜索引擎会先访问网站根目录的robots.txt文件

在百度的帮助文档里可以看到这一句:

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。

搜索引擎在爬取一个网站时,会先检查robots.txt,检查有哪些限制,再作出下一步决定。

说到点子上,不管搜索引擎发现某个网站有多少个URL,但只要这个网站的robots.txt里标明不允许搜索引擎抓取,搜索引擎是不能收录这个URL的。

对百度行为操守的质疑

百度遵守robots.txt吗?

这是这篇文章的要讨论的重点。

百度官方帮助文档里有这一句话:

百度严格遵循搜索引擎Robots协议

虽然在百度的十大罪状里说到,有传闻说百度是不遵守robots.txt的,但那毕竟是传闻,我们不妨先相信百度的官方说明。

低劣的行为操守

但是,一旦百度开通了“绿色通道”,允许卖家直接提交URL让百度抓取,这显然是违反了Robots.txt里的规定,而百度又是说自己是“严格遵循”Robots协议的,这可否说是拿石头砸自己的脚呢?

robots.txt不是法律,是准则

虽然robots.txt不是法律,但一旦搜索引擎加入了这个准则,就说明其遵守里面的协议。虽然违反协议内容不会受到法律的制裁,但这样的行为操守显然会受到鄙视。

百度口口声声说自己是遵循Robots规则的,但偏偏要酝酿这个绿色通道,是否可以认为,百度说遵守robots.txt只是个幌子,它事实上是没有规则可言呢?

当然,我希望百度不会真的酝酿这个绿色通道,不然就会成为天下的大笑话了。但既然这句话出自百度电子商务事业部总经理李明远之口,也未必不是事实。

(百度电子商务事业部总经理李明远)

最后说一点题外话,淘宝这种做法是否伤害到商家利益?

搜索一件商品的最好渠道不是通过搜索引擎。因为在搜索引擎里我们看不到价格、款式等商品属性的比较。而购物网站内建的搜索引擎却可以做到这一点。

另一方面,百度搜索结果经常充斥着诱惑点击的竞价排名广告,如果淘宝店铺结果混合在里面,这未必是一件好事。

Denis也写了类似的文章:百度真的遵守 Robots.txt 协议吗?

47 条评论

  1. 2008 年 9 月 10 日 下午 8:31

    哈哈!

  2. 2008 年 9 月 10 日 下午 9:15

    百度出了个“百付宝” ^_^

    • 2008 年 9 月 11 日 下午 2:54

      不看新闻我还以为是阿里巴巴的分支机构呢,还好不叫护舒宝。

  3. 2008 年 9 月 10 日 下午 9:23

    搞不懂,为什么百度出C2C淘宝就要封百度?对淘宝有什么好处吗?百度不收淘宝应该是对自己的C2C有好处啊,为什么要开绿色通道呢?

    • overwhelming
      2008 年 9 月 11 日 上午 12:19

      愚猜测百度是想靠这个举动来亲近淘宝的卖家,让他们觉得淘宝此举是侵害众卖家的利益,而百度的“反击”则是为了维护他们的利益,从而取悦数量众多的卖家,而这些卖家当中说不准会有若干个百分点的人倒戈投入百付宝怀抱,百度就已这部分有C2C经验的卖家为基地,逐步开始分羹淘宝…

  4. 封建
    2008 年 9 月 10 日 下午 9:43

    百度的竞价搜索把付费链接混合在搜索结果里的做法让很多搜索者误点链接.
    如果淘宝的店铺所有人有欺诈行为且使用竞价搜索服务.
    如果交易中出现了问题,用户首先质疑的是淘宝而不是百度.

    • 2008 年 9 月 11 日 下午 2:56

      这可能也是淘宝考虑的因素之一,但不是最大的因素。
      百度的一些行为,老实说,我觉得很无耻。

  5. RehsuR
    2008 年 9 月 10 日 下午 10:17

    百度现在依然收录着淘宝。。

    • 2008 年 9 月 11 日 下午 2:57

      如果网站设置不允许抓取,搜索引擎清除结果可能需要数月的时间,所以,不能以这一点来质疑它的“行为操守”。

      • RehsuR
        2008 年 9 月 11 日 下午 5:30

        哦,这样啊,看来这和主动提交取消索引要求不太一样。我们有个内部论坛,向 google 要求取消索引,过几天就生效了,完全搜索不到了。淘宝没有采取这种最直接的方式,感觉这次表态的成分更大吧。

  6. 2008 年 9 月 10 日 下午 11:00

    一般来说出了问题用户会骂淘宝,而不会意识到是百度提供的虚假的信息
    因为百度的竞价排名,支持淘宝的行为,不管是出于什么目的,至少对消费者有利的
    不过话说回来,一般淘宝的老买家,很少在搜索引擎搜淘宝上的东西吧

    • 2008 年 9 月 11 日 下午 2:58

      至少对于我来说,网上购物,除了买书,我只会到指定的购物网上搜索。

  7. 2008 年 9 月 10 日 下午 11:18

    当经济利益正面要求时,坚持原则是很困难的
    只不过这次太直白说出来了

  8. rgaobj
    2008 年 9 月 10 日 下午 11:35

    百度一直以来就没有什么行为操守,从来不用百度,因为你得到的总是他们认为调整的结果,根本没有公正性可言。

  9. 2008 年 9 月 11 日 上午 12:06

    这就叫百度的创新意识

  10. 2008 年 9 月 11 日 上午 2:35

    还有搜狐博客blog.sohu.com/robots.txt。。。

  11. 2008 年 9 月 11 日 上午 4:38

    几小时前刚好有和朋友讨论这个事
    顺便COPY过来这里和JASON分享下:
    说实话,这次”封索”事件超出了我个人的理解范围,一点没有看懂实质,所有的推测都是基于想象而已.但有几点想象和思践的认识不谋而同:
    1)淘宝这一举措应该是出于”必须的”而且是经过全盘斟酌战略部署.很难想象如果是百度先出手而淘宝再防御会是什么景象,当然百度是绝对会有出手的,先发制人是马云的风格也是他擅长的.关于”小卖家利益受损”一说,我的观点是:那不足为道.因为来路渠道方面还有GOOGLE和YAHOO嘛,那TAOBAO和YAHOO什么关系?YAHOO现在和GOOGLE向来关系也不错,现在更是.那GOOGLE和BAIDU又是什么样的关系呢?我想至少他们互相不会喜欢对方吧.所以,少了百度来源对小卖家几乎没啥干系.再用排它法来推算,C2C这一块能与淘宝为敌的也只有百度,所以是”必须的”.
    2)内部商业模式方面,”作为淘宝,利用买卖家信息整合资源作为特定增值服务”是符合未来逻辑的,所以从战略意义上,他们的确需要捍卫这块资源不被蚕食,尤其被凶悍的竞争对手掠夺是他们不能容忍的.淘宝是个大卖场也好是个大菜场也好,平台开放相当于变通式的招商引店行为,有人愿意进来开个形象店或有人愿意进来承包做员工餐,甚至引入第三方来管理经营停车厂,目的还是为了更好维护经营环境,提高服务质量.突然来了一家调研公司每天派”蜘蛛”去每个角落调查收集情况,然后宣布他们也要开个大卖场了,你怎么做?很简单,保护和封锁是必须的,然后加强内部管理,提升竞争力.
    我能理解和想象的就那么多,两家旗舰式的超级公司之间的战役就目前而言,观察与欣赏的价值远多过判断结果,毕竟战役才刚开始,好戏绝对在后头.

    凯瑟琳-泽塔-琼斯 🙂

    • 2008 年 9 月 11 日 下午 3:01

      我同意你的观点,以及汗一个“凯瑟琳-泽塔-琼斯”。

  12. 2008 年 9 月 11 日 上午 7:56

    也许有一天所有网站都开始屏蔽不断做恶的百度,看看到时是什么景象。

  13. 2008 年 9 月 11 日 上午 8:35

    百度真是越来越讨人嫌了。

  14. Pingback: 咚叭啦新闻台
  15. 2008 年 9 月 11 日 下午 10:34

    百度靠得住,母猪也会上树了!

  16. 2008 年 9 月 12 日 上午 1:38

    这篇文章写得好啊

  17. 2008 年 9 月 12 日 下午 1:35

    在易趣时代,淘宝也干过这事,整个中国互联网的潜规则都是这样,甚至说中国的C2C都干过这事,淘宝拍拍易趣,那个没有干过。还有一些blog搬家等等,如果我是做市场的,我也会这样干,企业市场经营之道有的时候是不能评论的,换作你,你也可能会这样干,至少在中国的国情下。

  18. 2008 年 9 月 12 日 下午 1:50

    从来没有用过百度,不予置评,问题是,就算淘宝不给百度收录,还可以用Google或者Yahoo吧,对小卖家来说该不是太大的问题才对吧

  19. 2008 年 9 月 19 日 下午 8:49

    感觉两边都挺无耻的.

  20. 2008 年 9 月 20 日 下午 2:25

    现在还没有传出百度抓取了淘宝店的信息的消息。现在还不好说。

  21. 2008 年 10 月 19 日 下午 3:10

    百度在我看来完全是个流氓公司…
    挂了几天阿里妈妈广告,就K我的博客

  22. fuky
    2008 年 11 月 1 日 下午 11:56

    博主说这个,未免偏颇了点。
    首先,robots限制是有这么回事,但也只是限制搜索引擎爬取而已,对于用户自行提交注册的url,有哪方面来讲也没有约束力。诚然,淘宝的限制对网站用户的影响不大,还有google等可以用,但用户当然也有权利自行注册到百度去,淘宝有资格管吗?对于用户自行注册过来的url,百度有义务根据淘宝的robots去屏蔽吗?甚至说,百度有权力去屏蔽吗?
    针对百度来说,因为淘宝的robots限制所以不对其抓取,不就是遵守了robots规则吗?

  23. fuky
    2008 年 11 月 1 日 下午 11:58

    顺便一说,博主注册个caosibaidu.cn,下作了吧?

  24. 滔滔
    2008 年 11 月 10 日 下午 4:36

    我从来不用百度,就用google,百度整个一骗人公司!!

  25. 2008 年 12 月 14 日 下午 8:46

    百度真恶心啊,搞了个什么有啊,还只用二级域名,郁闷哦,还百付宝

  26. kaka
    2008 年 12 月 17 日 下午 4:15

    不知kenengba对youku屏蔽谷歌与百度视频搜索,而谷歌视频还有大量youku内容什么看法,是不是谷歌操守有问题啊 ??

  27. 2009 年 4 月 4 日 上午 1:03

    你写这篇文章之前,有没有做过专业的调查?
    凡事不能只看表面,看到了某些没有做调查而妄下结论的作者,真的为你感到悲哀!
    需要搞清楚一点,淘宝坚决屏蔽百度,一点也不坚决!
    分明是淘宝又在讨好百度嘛,看看淘宝的robots.txt写法就知道了.
    http://mall.taobao.com/robots.txt
    众所周知,根目录下的robots.txt是屏蔽百度以及某个蜘蛛的关键文件。

    而淘宝商城的http://mall.taobao.com/ 根目录下,根本就没有robots.txt文件,也就是说,淘宝商城根本就没有屏蔽百度,也没有对任何机器人做限制。

    这就很明确的说明,淘宝网心口不一,嘴巴上称坚决屏蔽百度,实际上暗度陈仓,迷惑网友,今天偷偷的撤掉http://mall.taobao.com/跟目录下的robots.txt文件,等百度蜘蛛抓取到了数据后,又悄悄的把robots.txt放上去,朋友们应该知道,只要该网站没有作弊,百度的快照结果会很友好的为你保留很长时间,这是百度的特色功能。

    那么淘宝今天可以“偷偷的”把http://mall.taobao.com/根目录下robots.txt去掉,明天就有可能把http://www.taobao.com根目录下的robots.txt去掉,等到百度成功抓取了数据之后又“偷偷的”把robots.txt放上去。这一切的一切,都是悄悄的在人们的眼皮底下进行。

    说到这里,那些盲目责怪百度,说百度不要脸,被淘宝屏蔽了还抓取淘宝的人该知道,百度其实很无辜,淘宝才不要脸。

    • 2010 年 1 月 22 日 下午 5:05

      发现这位网友很有先见之明。。www.taobao.com的robots.txt果然被删了。。

  28. 2009 年 4 月 13 日 上午 11:12

    百度够阴险的

  29. 2009 年 5 月 19 日 下午 4:38

    看了懂了很多呀,谢谢LZ分享这么好的文章

  30. 2009 年 9 月 20 日 上午 11:06

    既然robot只是一个准则,百度过几天也可以大方的说robot不适合中国.

  31. 2009 年 11 月 20 日 下午 1:42

    我不用淘宝 我准备换Google为首页

  32. Tom
    2012 年 11 月 12 日 上午 9:43

    您的文章是如此有趣和翔实。我得到了很多有用的和重要的信息。谢谢你这么多。

  33. Kevin
    2012 年 11 月 12 日 上午 9:45

    您的文章是如此有趣和翔实。我得到了很多有用的和重要的信息。谢谢你这么多。

  34. alaska
    2012 年 11 月 20 日 下午 11:30

    您好!該網站是偉大的。謝謝你為一個偉大的資源

发表评论

电子邮件地址不会被公开。 必填项已用*标注