SEO教程第三篇:robots与SiteMap的作用

robots.txt 文件规定了搜索引擎抓取工具允许/禁止请求抓取网站上的哪些网页或文件。SiteMap(站点地图)是一种文件,可以在其中提供与网站中的网页、视频或其他文件有关的信息,还可以说明这些内容之间的关系。搜索引擎会读取此文件,以便更加智能地抓取网站。

robots.txt

此文件主要用于使网站避免收到过多请求(太多的搜索引擎爬行是很耗费资源的);它并不是一种阻止搜索引擎访问某个网页的有效方法。若想阻止搜索引擎访问某个网页,应使用 noindex 指令,或者使用密码保护。

robots.txt的认知要点

并非所有搜索引擎都支持 robots.txt 指令

robots.txt 文件中的命令并不能强制规范抓取工具对网站采取的行为;是否遵循这些命令由抓取工具自行决定。正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但有些抓取工具未必也会如此。因此,如果您想确保特定信息不会被网页抓取工具抓取,我们建议您采用其他屏蔽方法,例如用密码保护服务器上的隐私文件。

不同的抓取工具会以不同的方式解析语法

虽然正规的网页抓取工具会遵循 robots.txt 文件中的指令,但每种抓取工具可能会以不同的方式解析这些指令。您需要好好了解一下适用于不同网页抓取工具的正确语法,因为有些抓取工具可能会无法理解某些命令

如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页,则此网页仍可能会被编入索引

尽管搜索引擎不会抓取被 robots.txt 屏蔽的内容或将其编入索引,但如果网络上的其他位置有链接指向被禁止访问的网址,我们仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(如相关页面链接中的定位文字)仍可能会出现在搜索引擎搜索结果中。若要正确阻止您的网址出现在搜索引擎搜索结果中,您应为服务器上的文件设置密码保护,或者使用 noindex 元标记或响应标头(或者彻底移除网页)。

关于robots.txt 指令的写法可参照:https://www.zhanzhangb.com/1808.html

SiteMap网站地图

站点地图会告诉搜索引擎,在网站中的哪些网页和文件比较重要,还会提供与这些文件有关的重要信息:以网页为例,这些信息包括网页上次更新的时间、网页更改的频率,以及网页是否有其他语言版本。

在以下情况下,建议使用站点地图:

网站规模较大。在这种情况下,搜索引擎网页抓取工具更有可能在抓取时漏掉部分新网页或最近更新的网页。

网站有大量内容页归档,这些内容页之间互不关联或缺少有效链接。如果您的网站网页没有自然地相互引用,那么您可以在站点地图中列出这些网页,确保搜索引擎不会漏掉其中某些网页。

网站为新网站且指向该网站的外部链接不多。网页抓取工具是通过跟踪网页之间的链接来抓取网页的。因此,如果没有其他网站链接到您的网页,搜索引擎可能不会发现您的网页。

网站包含大量富媒体内容(视频、图片)。如果提供了站点地图,在适当情况下,搜索引擎能将站点地图中的其他信息纳入搜索范围。

创建站点地图

一般的主流的搜索引擎支持多种格式的站点地图,无论采用哪种格式,单个站点地图的文件大小一律不得超过 50MB(未压缩),并且其中包含的网址数量不得超过 50000 个,否则必须将站点地图拆分成多个较小的站点地图。

XML格式

示例:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/1.html</loc>
<lastmod>2021-02-23</lastmod>
</url>
</urlset>

XML格式的站点地图,可以查阅:https://www.sitemaps.org/protocol.html,了解更多内容。

RSS 或 Atom Feed

如果您的博客有 RSS 或 Atom Feed,那么您可以将该 Feed 的网址作为站点地图提交。 大多数博客软件都能为您创建 Feed,但请注意,此类 Feed 只会提供近期发布/更新的信息。

文本

如果您的站点地图只包含网页网址,那么可以向搜索引擎提供简单的文本文件(UTF-8 编码,每行只包含一个网址)。例如:

https://www.example.com/page1.html
https://www.example.com/page2.html

提交站点地图

可以通过robots.txt中的Sitemap指令进行提交,也可以通过搜索引擎提供的站长工具进行提交。例如在robots.txt文件的尾部,添加:

Sitemap: http://www.example.com/sitemap.xml

或以百度为例(下图):先登陆百度搜索资源平台,然后在普通收录 > 资源提交 > sitemap中提交相应的xml文件。

百度提交sitemap
百度提交sitemap

注意:百度仅支持小于10M的txt或xml文件,如数据较多,需要将文件分拆,一次可以提交10个文件。

SEO教程文章目录:


留下评论