SEO优化-robots.txt解读

我是leon

2023-09-06 帮助1人

一、什么是robots.txt

通俗一点的说法就是：告诉爬虫，我这个网站，你哪些能看，哪些不能看的一个协议。

二、为什么要使用robots.txt

搜索引擎（爬虫），访问一个网站，首先要查看当前网站根目录下的robots.txt，然后依据里面的规则，进行网站页面的爬取。也就是说，robots.txt起到一个基调的作用，也可以说是爬虫爬取当前网站的一个行为准则。

那使用robots.txt的目的，就很明确了。

更好地做定向SEO优化，重点曝光有价值的链接给爬虫
将敏感文件保护起来，避免爬虫爬取收录

三、robots.txt的示例

栗子如下：

User-agent: Googlebot
Disallow: /no谷歌bot/

User-agent: *
Allow: /

Sitemap: http://www.wangxiaokai.vip/sitemap.xml

解析：

名为“Googlebot”抓取工具的用户代理不应抓取 http://wangxiaokai.vip/no谷歌bot/ 文件夹或任何子目录。所有其他用户代理均可访问整个网站。（不指定这条规则也无妨，结果是一样的，因为完全访问权限是系统默认的前提。）网站的站点地图文件位于 http://www.wangxiaokai.vip/sitemap.xml

四、文件规范

1、文件格式和命名

文件格式为标准 ASCII 或 UTF-8
文件必须命名为 robots.txt
只能有 1 个 robots.txt 文件

2、文件位置

必须位于它所应用到的网站主机的根目录下

3、常用的关键字

User-agent 网页抓取工具的名称
Disallow 不应抓取的目录或网页
Allow 应抓取的目录或网页
Sitemap 网站的站点地图的位置

五、百度网盘的应用

百度网盘的资源，到博文编写时间为止，已经不能用常用的搜索技巧site:pan.百度.com 搜索关键字的方式，在百度.com|谷歌.com|biying.com（国际版还可以勉强搜索到）去搜索对应的资源。禁止的方式，很大程度上是依靠robots.txt，而不是请去喝茶😆。

以下是访问 http://pan.百度.com/robots.txt 得到的规则：

可以看到，百度网盘封杀了所有资源文件入口。最狠的是最后一句：

User-agent: *
Disallow: /

我只想说有资源真的可以为所欲为😂

喜欢我文章的朋友，扫描以下二维码，浏览我的个人技术博客
或点击链接王先生的基地
学新通网

这篇好文章是转载于：学新通技术网

SEO优化-robots.txt解读

一、什么是robots.txt

二、为什么要使用robots.txt

三、robots.txt的示例

四、文件规范

1、文件格式和命名

2、文件位置

3、常用的关键字

五、百度网盘的应用

photoshop保存的图片太大微信发不了怎么办

Android 11 保存文件到外部存储，并分享文件

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

怎样阻止微信小程序自动打开

TikTok加速器哪个好免费的TK加速器推荐

SEO优化-robots.txt解读

一、什么是robots.txt

二、为什么要使用robots.txt

三、robots.txt的示例

四、文件规范

1、文件格式和命名

2、文件位置

3、常用的关键字

五、百度网盘的应用

photoshop保存的图片太大微信发不了怎么办

Android 11 保存文件到外部存储，并分享文件

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

怎样阻止微信小程序自动打开

TikTok加速器哪个好免费的TK加速器推荐

2、文件位置