做站难,难于上青天,抱必胜之念,决败退之心!站长交流QQ群
当前位置:主页 > 软文√ > 正文

网站搜索引擎优化中robots.txt协议的作用及写法说明解释

t14.cn网址导航分享下关于网站优化中robots.txt的重要性,它是搜索引擎中访问网站的时候要查看的第一个文件,robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

robots.txt协议是网站与搜索引擎之间的一种约定,当搜索引擎蜘蛛访问网站时会第一时间查看网站是否设置了robots.txt协议,并根据robots.txt协议的内容进行访问和抓取。网站可以利用robots.txt协议屏蔽蜘蛛抓取部分隐私的内容或者不愿意公开的内容,已达到对搜索引擎抓取收录的有效规范。

Robots.txt写法详解

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围。

如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面,当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

robots.txt的作用

一、robots语法

1、User-agent:定义搜索引擎类型

2、Disallow:定义禁止抓取收录

3、Allow:定义允许抓取收录

4、*:通配符

5、$:结束符

6、/:代表网站根目录

示例:

1、User-agent: * 表示所有的搜索引擎蜘蛛

2、Disallow: / 表示屏蔽整个网站(Disallow: 后面为关键词,只要路径中存在该关键词就会被屏蔽)

(1)Disallow: /t/ 屏蔽文件夹t内的所有文件

(2)Disallow: /t 屏蔽主域名后面带t的文件,可能会屏蔽非“t”文件夹内的文件,不精准

3、Disallow: /*?* 屏蔽动态路径

4、Disallow: /*.css$ 屏蔽css文件

5、Disallow: /*.js$ 屏蔽js文件

6、Disallow: /*.jpg$ 屏蔽jpg格式的图片

什么情况下使用robots.txt协议?哪些文件应当被屏蔽?

1、统一路径:屏蔽掉目标优化外的其他链接;

2、搜索链接:Disallow: /search/

3、标签链接:Disallow: /tag/

4、中文链接

5、js链接:Disallow: /*.js$

robots.txt协议的使用应当是基于对网站的充分了解的基础上,屏蔽掉对用户没有作用、无价值,,对整站质量提升没有帮助的页面。

robots.txt协议编写注意事项

1、符合使用的细节

(1)“/”后面不可留有空格,留有空格表示屏蔽整站

(2)英文状态下的“:”

(3)注意大小写,首字母大写

(4)冒号后面紧跟一个空格

2、生效时间

robots.txt协议的生效时间并不固定,几天或者两个月之内生效都有可能。

3、不要随意屏蔽整站

即使是未上线期间的整站屏蔽也会留有不好的影响,谨记!

写好robots.txt协议文件放在网站的根目录即可,用FTP工具上传,查看的话在浏览器中输入网站域名,后面加上robots.txt,例如https://t14.cn/robots.txt,即可打开robots文件。

验证robots.txt协议是否正确,可以登录百度站长平台,点击检测,即可查看结果。