robots.txt是存放与网站根目录下的对搜索引擎爬虫列明抓取限制的文件。
淘宝近日在robots.txt里将百度爬虫完全禁止了,也就是说,不允许百度爬虫抓取taobao.com上任何页面。显然,淘宝这一举动是针对百度将要上线的C2C平台而做出的。
但根据新浪科技的采访报道,百度电子商务事业部总经理李明远表示百度正在酝酿绕过淘宝官方,为淘宝用户开辟“绿色通道”,由用户直接提交URL让百度收录。
百度经常K站地球人都知道,百度的人工干预也为世人所知。但我不明白百度为什么要关闭新站登录的入口。在一个群里有人说到,百度把新站登录的入口http://www.baidu.com/search/url_submit.html关闭了,进入后会有错误提示。让人感到疑惑的是,百度并没有完全关闭这个入口,从Google的网页快照里还是可以访问这个提交页面,验证码能成功加载,并且能成功提交网址。
在GoogleReader里点击了一个链接,打开后竟然是“您输入的内容无法访问。有可能是输入错误,或者是网站访问超时。”这样的提示,这个提示页面从地址bbn.com.cn上来看是属于北京宽带网的。我使用的线路是河北网通,难道是河北网通开始耍流氓了?如果是,为何耍到北京宽带网,而不是河北宽带网(如果有的话)?