Robot,意为机器人,robots.txt则是一个文件。在之前的SEO知识中,我们对robots.txt早就耳熟能详了,可是“robots.txt是什么”、“robots.txt有什么用途”我们不了解也不知道,趁着这次机会呢,大家都跟着彼亿营销一起,解开“robots.txt”的神秘面纱。
robots.txt是搜索引擎访问网站时候查看的第一个文件,当搜索引擎蜘蛛访问一个站点时候,它会首先查看该站点根目录下是否存在robots.txt,搜索引擎会根据文件里的内容,有范围的访问。若是没有robots.txt,搜索引擎蜘蛛就能爬取网站所有没有保护的页面。
我们可以把robots.txt理解成一个协议,这个协议是约定俗成的规则,有效保护了隐私页面不被搜索引擎爬取。
在使用robots.txt时,我们要明确以下问题,避免在使用时出现错误。
第一:没有需要禁止的访问页面,也要添加robots.txt。网站所有文件都需要被蜘蛛抓取,就不必添加robots.txt了,这种想法是错误的。当一条URL不存在(被删除,或者URL不规范)时,服务器会记录一条404错误,为了避免这种事情出现搜索引擎抓取内容的过程中,robots.txt可以禁止搜索引擎访问该页面。
第二:robots.txt文件设置要得当。如果robots.txt限制过大,会影响搜索引擎对网站的收录情况; robots.txt允许所有文件都可以被搜索引擎抓取,也并不能提升网站收录情况。在我们只日常工作中,只要将过于隐秘的页面禁止搜索引擎抓取即可。
下面我们在介绍robots.txt的几种常规写法:
1:禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
2:允许所有搜索引擎访问网站的任何部分
设置个空文件即可
3:禁止所有搜索引擎访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
4. 禁止网站上的程序文件被搜索引擎蜘蛛索引,这样可以节省服务器资源。
一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
以上就是彼亿营销有关robots.txt内容的介绍,希望对大家有所帮助。如果还有所不懂得,可以跟我们彼亿营销专业人士联系。