从百度针对淘宝用户开“绿色收录通道”质疑百度的行为操守

阅读时间 4 分钟，快速阅读仅需 2 分钟。

robots.txt是存放与网站根目录下的对搜索引擎爬虫列明抓取限制的文件。

淘宝近日在robots.txt里将百度爬虫完全禁止了，也就是说，不允许百度爬虫抓取taobao.com上任何页面。显然，淘宝这一举动是针对百度将要上线的C2C平台而做出的。

但根据新浪科技的采访报道，百度电子商务事业部总经理李明远表示百度正在酝酿绕过淘宝官方，为淘宝用户开辟“绿色通道”，由用户直接提交URL让百度收录。

（pic via）

如果百度真的开辟了这个绿色通道，这将是对其行为操守的一个巨大的讽刺。

为什么这样说呢？

首先从robots.txt说起。

robots.txt能做什么？

1、限制某个搜索引擎不让其爬取

2、限制搜索引擎不让其抓取某些页面

3、其它限制

（pic via）

而淘宝的robots.txt里的内容如下：

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

大小写都用了，很明显是要限制百度爬虫，除非百度爬虫不叫baiduspider。

淘宝有权禁止搜索引擎抓取吗？

robots.txt是可以分级的

也就是说，二级域名根目录下也可以放置robots.txt。但是，顶级域名下的robots.txt的权限高于二级、三级域名下的robots.txt。

淘宝店铺URL使用的都是二级域名，不管这些店铺是否愿意被收录，只要taobao.com的robots.txt作出了限制，一切都是NO。

robots.txt规则

搜索引擎会先访问网站根目录的robots.txt文件

在百度的帮助文档里可以看到这一句：

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。

搜索引擎在爬取一个网站时，会先检查robots.txt，检查有哪些限制，再作出下一步决定。

说到点子上，不管搜索引擎发现某个网站有多少个URL，但只要这个网站的robots.txt里标明不允许搜索引擎抓取，搜索引擎是不能收录这个URL的。

对百度行为操守的质疑

百度遵守robots.txt吗？

这是这篇文章的要讨论的重点。

百度官方帮助文档里有这一句话：

百度严格遵循搜索引擎Robots协议

虽然在百度的十大罪状里说到，有传闻说百度是不遵守robots.txt的，但那毕竟是传闻，我们不妨先相信百度的官方说明。

低劣的行为操守

但是，一旦百度开通了“绿色通道”，允许卖家直接提交URL让百度抓取，这显然是违反了Robots.txt里的规定，而百度又是说自己是“严格遵循”Robots协议的，这可否说是拿石头砸自己的脚呢？

robots.txt不是法律，是准则

虽然robots.txt不是法律，但一旦搜索引擎加入了这个准则，就说明其遵守里面的协议。虽然违反协议内容不会受到法律的制裁，但这样的行为操守显然会受到鄙视。

百度口口声声说自己是遵循Robots规则的，但偏偏要酝酿这个绿色通道，是否可以认为，百度说遵守robots.txt只是个幌子，它事实上是没有规则可言呢？

当然，我希望百度不会真的酝酿这个绿色通道，不然就会成为天下的大笑话了。但既然这句话出自百度电子商务事业部总经理李明远之口，也未必不是事实。

(百度电子商务事业部总经理李明远)

最后说一点题外话，淘宝这种做法是否伤害到商家利益？

搜索一件商品的最好渠道不是通过搜索引擎。因为在搜索引擎里我们看不到价格、款式等商品属性的比较。而购物网站内建的搜索引擎却可以做到这一点。

另一方面，百度搜索结果经常充斥着诱惑点击的竞价排名广告，如果淘宝店铺结果混合在里面，这未必是一件好事。

Denis也写了类似的文章：百度真的遵守 Robots.txt 协议吗？

47 条评论

从来没有用过百度，不予置评，问题是，就算淘宝不给百度收录，还可以用Google或者Yahoo吧，对小卖家来说该不是太大的问题才对吧

(0) (0)

[…] robots.txt是可以分级的：这个是扯淡，我研究搜索引擎六七年，自己编的还要理直气壮说出来的理论真没见过，建议提交给google研究，搜索引擎有支持的必要。可惜现在robots只对单个网站使用，甚至同一站点不同端口都要分别设置才行，robots协议就是这么规定的，所有的搜索引擎也都是这么做的，可以到这里看看。但淘宝每个二级域名都放置了robos禁止抓取，这是另一码事，与什么分级论无关。如果robots真可以分级，请告诉我出处，哪家搜索引擎支持，我去学习一下。 […]

(0) (0)

感觉两边都挺无耻的.

(0) (0)

现在还没有传出百度抓取了淘宝店的信息的消息。现在还不好说。

(0) (1)

百度在我看来完全是个流氓公司…
挂了几天阿里妈妈广告，就K我的博客

(0) (1)

博主说这个，未免偏颇了点。
首先，robots限制是有这么回事，但也只是限制搜索引擎爬取而已，对于用户自行提交注册的url，有哪方面来讲也没有约束力。诚然，淘宝的限制对网站用户的影响不大，还有google等可以用，但用户当然也有权利自行注册到百度去，淘宝有资格管吗？对于用户自行注册过来的url，百度有义务根据淘宝的robots去屏蔽吗？甚至说，百度有权力去屏蔽吗？
针对百度来说，因为淘宝的robots限制所以不对其抓取，不就是遵守了robots规则吗？

(0) (0)

顺便一说，博主注册个caosibaidu.cn，下作了吧？

(0) (0)

我从来不用百度，就用google，百度整个一骗人公司！！

(0) (2)

百度真恶心啊，搞了个什么有啊，还只用二级域名，郁闷哦，还百付宝

(0) (1)

不知kenengba对youku屏蔽谷歌与百度视频搜索，而谷歌视频还有大量youku内容什么看法，是不是谷歌操守有问题啊？？

(0) (0)

你写这篇文章之前，有没有做过专业的调查？
凡事不能只看表面，看到了某些没有做调查而妄下结论的作者，真的为你感到悲哀！
需要搞清楚一点，淘宝坚决屏蔽百度，一点也不坚决！
分明是淘宝又在讨好百度嘛，看看淘宝的robots.txt写法就知道了.
http://mall.taobao.com/robots.txt
众所周知，根目录下的robots.txt是屏蔽百度以及某个蜘蛛的关键文件。

而淘宝商城的http://mall.taobao.com/ 根目录下，根本就没有robots.txt文件，也就是说，淘宝商城根本就没有屏蔽百度，也没有对任何机器人做限制。

这就很明确的说明，淘宝网心口不一，嘴巴上称坚决屏蔽百度，实际上暗度陈仓，迷惑网友，今天偷偷的撤掉http://mall.taobao.com/跟目录下的robots.txt文件，等百度蜘蛛抓取到了数据后，又悄悄的把robots.txt放上去，朋友们应该知道，只要该网站没有作弊，百度的快照结果会很友好的为你保留很长时间，这是百度的特色功能。

那么淘宝今天可以“偷偷的”把http://mall.taobao.com/根目录下robots.txt去掉，明天就有可能把http://www.taobao.com根目录下的robots.txt去掉，等到百度成功抓取了数据之后又“偷偷的”把robots.txt放上去。这一切的一切，都是悄悄的在人们的眼皮底下进行。

说到这里，那些盲目责怪百度，说百度不要脸，被淘宝屏蔽了还抓取淘宝的人该知道，百度其实很无辜，淘宝才不要脸。

(4) (3)

felix021说道：

2010 年 1 月 22 日下午 5:05

发现这位网友很有先见之明。。www.taobao.com的robots.txt果然被删了。。

(0) (0)

回复

百度够阴险的

(0) (1)

看了懂了很多呀,谢谢LZ分享这么好的文章

(0) (0)

既然robot只是一个准则，百度过几天也可以大方的说robot不适合中国.

(0) (0)

我不用淘宝我准备换Google为首页

(0) (1)

您的文章是如此有趣和翔实。我得到了很多有用的和重要的信息。谢谢你这么多。

(0) (0)

您的文章是如此有趣和翔实。我得到了很多有用的和重要的信息。谢谢你这么多。

(0) (0)

您好！該網站是偉大的。謝謝你為一個偉大的資源

(0) (0)

发表回复取消回复

linfavourite说道：

2008 年 9 月 12 日下午 1:50

从来没有用过百度，不予置评，问题是，就算淘宝不给百度收录，还可以用Google或者Yahoo吧，对小卖家来说该不是太大的问题才对吧

(0) (0)

回复
百度、淘宝与robots - askbaidu说道：

2008 年 9 月 17 日上午 1:17

[…] robots.txt是可以分级的：这个是扯淡，我研究搜索引擎六七年，自己编的还要理直气壮说出来的理论真没见过，建议提交给google研究，搜索引擎有支持的必要。可惜现在robots只对单个网站使用，甚至同一站点不同端口都要分别设置才行，robots协议就是这么规定的，所有的搜索引擎也都是这么做的，可以到这里看看。但淘宝每个二级域名都放置了robos禁止抓取，这是另一码事，与什么分级论无关。如果robots真可以分级，请告诉我出处，哪家搜索引擎支持，我去学习一下。 […]

(0) (0)

回复
springcity说道：

2008 年 9 月 19 日下午 8:49

感觉两边都挺无耻的.

(0) (0)

回复
汽车维修管理软件博客说道：

2008 年 9 月 20 日下午 2:25

现在还没有传出百度抓取了淘宝店的信息的消息。现在还不好说。

(0) (1)

回复
cnpabi说道：

2008 年 10 月 19 日下午 3:10

百度在我看来完全是个流氓公司…
挂了几天阿里妈妈广告，就K我的博客

(0) (1)

回复
fuky说道：

2008 年 11 月 1 日下午 11:56

博主说这个，未免偏颇了点。
首先，robots限制是有这么回事，但也只是限制搜索引擎爬取而已，对于用户自行提交注册的url，有哪方面来讲也没有约束力。诚然，淘宝的限制对网站用户的影响不大，还有google等可以用，但用户当然也有权利自行注册到百度去，淘宝有资格管吗？对于用户自行注册过来的url，百度有义务根据淘宝的robots去屏蔽吗？甚至说，百度有权力去屏蔽吗？
针对百度来说，因为淘宝的robots限制所以不对其抓取，不就是遵守了robots规则吗？

(0) (0)

回复
fuky说道：

2008 年 11 月 1 日下午 11:58

顺便一说，博主注册个caosibaidu.cn，下作了吧？

(0) (0)

回复
滔滔说道：

2008 年 11 月 10 日下午 4:36

我从来不用百度，就用google，百度整个一骗人公司！！

(0) (2)

回复
口腔医学说道：

2008 年 12 月 14 日下午 8:46

百度真恶心啊，搞了个什么有啊，还只用二级域名，郁闷哦，还百付宝

(0) (1)

回复
kaka说道：

2008 年 12 月 17 日下午 4:15

不知kenengba对youku屏蔽谷歌与百度视频搜索，而谷歌视频还有大量youku内容什么看法，是不是谷歌操守有问题啊？？

(0) (0)

回复
百度一下下说道：

2009 年 4 月 4 日上午 1:03

你写这篇文章之前，有没有做过专业的调查？
凡事不能只看表面，看到了某些没有做调查而妄下结论的作者，真的为你感到悲哀！
需要搞清楚一点，淘宝坚决屏蔽百度，一点也不坚决！
分明是淘宝又在讨好百度嘛，看看淘宝的robots.txt写法就知道了.
http://mall.taobao.com/robots.txt
众所周知，根目录下的robots.txt是屏蔽百度以及某个蜘蛛的关键文件。

而淘宝商城的http://mall.taobao.com/ 根目录下，根本就没有robots.txt文件，也就是说，淘宝商城根本就没有屏蔽百度，也没有对任何机器人做限制。

这就很明确的说明，淘宝网心口不一，嘴巴上称坚决屏蔽百度，实际上暗度陈仓，迷惑网友，今天偷偷的撤掉http://mall.taobao.com/跟目录下的robots.txt文件，等百度蜘蛛抓取到了数据后，又悄悄的把robots.txt放上去，朋友们应该知道，只要该网站没有作弊，百度的快照结果会很友好的为你保留很长时间，这是百度的特色功能。

那么淘宝今天可以“偷偷的”把http://mall.taobao.com/根目录下robots.txt去掉，明天就有可能把http://www.taobao.com根目录下的robots.txt去掉，等到百度成功抓取了数据之后又“偷偷的”把robots.txt放上去。这一切的一切，都是悄悄的在人们的眼皮底下进行。

说到这里，那些盲目责怪百度，说百度不要脸，被淘宝屏蔽了还抓取淘宝的人该知道，百度其实很无辜，淘宝才不要脸。

(4) (3)

回复
- felix021说道：
  
  2010 年 1 月 22 日下午 5:05
  
  发现这位网友很有先见之明。。www.taobao.com的robots.txt果然被删了。。
  
  (0) (0)
  
  回复
南亚风情说道：

2009 年 4 月 13 日上午 11:12

百度够阴险的

(0) (1)

回复
reamo说道：

2009 年 5 月 19 日下午 4:38

看了懂了很多呀,谢谢LZ分享这么好的文章

(0) (0)

回复
读者之家说道：

2009 年 9 月 20 日上午 11:06

既然robot只是一个准则，百度过几天也可以大方的说robot不适合中国.

(0) (0)

回复
南京工作服说道：

2009 年 11 月 20 日下午 1:42

我不用淘宝我准备换Google为首页

(0) (1)

回复
Tom说道：

2012 年 11 月 12 日上午 9:43

您的文章是如此有趣和翔实。我得到了很多有用的和重要的信息。谢谢你这么多。

(0) (0)

回复
Kevin说道：

2012 年 11 月 12 日上午 9:45

您的文章是如此有趣和翔实。我得到了很多有用的和重要的信息。谢谢你这么多。

(0) (0)

回复
alaska说道：

2012 年 11 月 20 日下午 11:30

您好！該網站是偉大的。謝謝你為一個偉大的資源

(0) (0)

回复

胡扯机器鼠 on 留言板: “巧了，我也是。” 7 月 19, 21:10

SANKO S S on 因为在中国，所以有话题: “所以，英文版呢？” 10 月 29, 18:23

Keboom on 5G，新连接时代的机会: “现在是 2024年，仍然看不到5G的威力…” 9 月 19, 15:55

Chuan on 那么，我是如何使用 ChatGPT 的: “博主的分享很有启发性。” 9 月 6, 09:59

游钓四方 on 留言板: “RSS订阅不能用 https://fee…” 8 月 6, 00:10

从百度针对淘宝用户开“绿色收录通道”质疑百度的行为操守

Post navigation

47 条评论

发表回复 取消回复

发表回复取消回复