网站的Robots.txt文件如何设置

Jaysun

温馨提示:这篇文章已超过725天没有更新,请注意相关的内容是否还可用!

1.webp (1).jpg


网站SEO中robots文件对搜索引擎比较重要,首先我们了解一下什么是robots,简单的解释一下就是类似于目录,它告诉搜索引擎哪些可以爬取,哪些不可以爬取,所有的搜索引擎会首先访问网站根目录下robots.txt文件,以此来了解这个网站的抓取权限。

注意事项

  1. 很多网站觉着我的网站上所有的内容都可以抓取,所以网站就不设置robots文件,这种做法是不对的,因为一旦有搜索引擎到网站爬取,你的网站没有这个文件,会造成404错误,是非常影响搜索引擎的印象的,会觉着网站不正规,不利于SEO。

  2. 如果设置所有网站都抓取,觉着可以增加网站的收录页面,这种做法也是错误的,搜索引擎对html文件情有独钟,对JS、框架等文件比较排斥。网站的脚本文件、样式表等可以选择屏蔽,浪费服务器资源还得不到好处。

  3. 蜘蛛抓取浪费服务器资源,在robots协议中屏蔽所有搜索引擎这样就把搜索引擎蜘蛛屏蔽了,搜索引擎蜘蛛不会抓取网站内的内容,也不会有收录

  4. robots文件需要放置到网站的根目录下,文件名需要小写的robots.txt

  5. robots文件中可以放上网站地图的链接,搜索引擎蜘蛛每次到网站首先访问的就是robots文件,这样有利于搜索引擎蜘蛛每次抓取都会发现网站地图链链接。


格式:

User-agent:

是描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

举例:

例一:"Disallow:/help"是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。

例二:"Disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。

例三:Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。

#:Robots.txt 协议中的注释符。


搜索引擎蜘蛛名字:

User-agent: Baiduspider #百度蜘蛛

User-agent:360spider #360蜘蛛

User-agent: Sosospider #搜搜蜘蛛

User-agent: sogou spider #搜狗蜘蛛

User-agent: YodaoBot #有道蜘蛛

User-agent: Googlebot #谷歌蜘蛛

User-agent: Bingbot #必应蜘蛛

User-agent: Slurp #雅虎蜘蛛


大家可以根据实际需要进行填写。

您需要 登录账户 后才能发表评论

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,1536人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码