如何恰当的使用和区分ROBOTS和NOFOLLOW?

如何恰当的使用和区分ROBOTS和NOFOLLOW?-seo学堂-

以前觉得,网页上面不需要的URL,我用robots屏蔽就行了。可是事实上并不是这样。在GWT的Crawl Errors中,会出现Restricted by robots.txt这样的错误。很奇怪,我用robots屏蔽了,为何还算做crawl errors呢?
我拿我自己的网站为例,我们的内页是www.mydomain.com/A/1.html在这个页面上有很多链接,其中有
www.mydomain.com/A/1/similar1.html
www.mydomain.com/A/1/similar2.html
这两个链接是我不想让搜索引擎爬行的。
原先只有similar1.html在网页上出现,我用robots屏蔽后,GWT里面出现了很多REstricted by robots.txt这样的错误,错误的链接都是/A/*/similar1.html然后再之后一次网站改版时,我将这个链接nofollow掉了,但是为了实现某些功能,前台程序员们又加上了www.mydomain.com/A/1/similar2.html这样的链接,我在第一时间内将其robot.txt。然后这时候我回头看GWT里面的crawl errors。所有的Restricted by robots.txt的条目都变成了similar2.html,而原先的similar1.html消失了。
我记得国平老师似乎曾经说过,就算你用robots.txt禁止了某类URL,蜘蛛依旧会去探测这个URL。同时Google官方也确认,网站的每日爬行数量和PR有一定关系,那在我PR一定的情况下,我每天被爬行的URL数量是一个差不多定值。然后这类被robots.txt禁止的URL被蜘蛛探测,依旧会占用其他正常URL的探测机会。只有当使用了nofollow后,才能让蜘蛛彻底的不理睬这个URL,放在我上面的例子中来说,当蜘蛛来到/A/1.html页面后,它检查这个页面的链接信息,发现了similar1.html和similar2.html这两个URL,如果没有nofollow,那它会探测这两个URL, 当发现这两个URL被robots禁止后,会返回google官方服务器一个数据,这两个URL不能爬行。但是如果加上了nofollow,那蜘蛛可能连探测都不会去探测它是否遵循robots.txt,而是直接去请求下面的链接了。
因此nofollow的运用,是提高蜘蛛效率的最佳工具,而robots.txt和meta标记,只是为了减少网页重复和垃圾信息的量。可以说是完全两个用途。当然,配合起来使用,可以让网站被搜索引擎爬行得更多,更好。

本文最后更新于2017年5月14日,已超过 1 年没有更新,如果文章内容或图片资源失效,请留言反馈,我们会及时处理,谢谢!
  • 站长技术交流群
  • 群号:635625050
  • weinxin
  • 微信公众号
  • 微信扫一扫关注
  • weinxin
李文云
广告也精彩

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: