robots.txt的简单介绍-枫舟驿站

本文目录：

1、robotstxt应该放在什么地方
2、网站下面没有robots.txt怎么办
3、怎样查看网站robots.txt内容
4、什么是robots.txt文件
5、robot.txt的文件格式
6、robots.txt不支持的代码有哪些

robotstxt应该放在什么地方

robots.txt是要放到根目录下面的。

所谓的根目录就是你的网站程序所在的那个目录，一般的根目录貌似都是个叫WEB或者www文件夹robots.txt文件必须驻留在域的根目录，并且必须命名为“robots.txt”。位于子目录中的robots.txt文件无效，因为漫游器只在域的根目录这个文件。如果您没有访问域的根目录，可以使用限制访问robots元标记。

网站下面没有robots.txt怎么办

由于该网站的robots.txt文件存在限制指令的解决办法

找到根目录下的robots.txt文件，去掉这一句disallow:/，解除屏蔽抓取；

下面一步很关键，就是到站长平台下去更新robots文件，告诉搜索引擎你的网站已经对它解除了屏蔽，可以来抓取我的网页内容了，主动对搜索引擎示好，快照更新过来之后，现象就会消失了。

怎样查看网站robots.txt内容

robots文件一般放在网站根目录，所以想查看它很简单，

只需要在你的网站URL后面输入：robots.txt

以百度的robots为例：

如果觉得有用记得点个赞！

什么是robots.txt文件

应该是robots.txt文件吧,

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。robots.txt 是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人robots（有的叫搜索蜘蛛或者爬虫）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索引擎爬虫就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索引擎爬虫就沿着链接抓取。

robots.txt 文件限制抓取网络的搜索引擎爬虫对您的网站的访问。这些搜索引擎爬虫是自动的，它们在访问任意网站的网页之前，都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。（虽然某些搜索引擎爬虫可能会以不同的方式解释 robots.txt 文件中的指令，但所有正规的搜索引擎爬虫都会遵循这些指令。然而，robots.txt 不是强制执行的，一些垃圾信息发送者和其他麻烦制造者可能会忽略它。因此，我们建议对机密信息采用密码保护。）

只有当您的网站中包含您不想让搜索引擎编入索引的内容时，才需要使用 robots.txt 文件。如果您希望搜索引擎将网站上的所有内容编入索引，则不需要 robots.txt 文件（甚至连空的 robots.txt 文件也不需要）。

为了能使用 robots.txt 文件，您必须要有对您网站的根目录的访问权限（如果您不能确定是否有该权限，请与您的网络托管商核实）。如果您没有对网站的根目录的访问权限，可以使用robots元标记来限制访问。

robot.txt的文件格式

“robots.txt”文件包含一条或多条记录，这些记录通过空行分开（以CR、CR/NL、or NL作为结束符），每一条记录的格式如下所示：

“field:optionalspacevalueoptionalspace”

在该文件中可以使用#进行注释，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行，详细情况如下：

User-agent：

该项的值用于描述搜索引擎机器人robot的名字。在“robots.txt”文件中，如果有多条 User-agent记录，说明有多个robot会受到该协议的约束。所以，“robots.txt”文件中至少要有一条User- agent记录。如果该项的值设为*（通配符），则该协议对任何搜索引擎机器人均有效。在“robots.txt”文件中，“User-agent：*”这样的记录只能有一条。

Disallow：

该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如：

“Disallow: /help”对/help.html 和/help/index.html都不允许搜索引擎访问，而“Disallow: /help/”则允许robot访问/help.html，而不能访问/help/index.html。

任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在 “/robots.txt”文件中，至少要有一条Disallow记录。如果“/robots.txt”是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

robots.txt不支持的代码有哪些

noindex。题目出自SEO面试试题中，robots.txt不支持的代码为noindex，支持Allow、Disallow和Crawl-delay。seo是一种缩写，它的全称是SeachEngineOptimization的简写，中文翻译过来就是搜索引擎优化。

【robots.txt】的内容来源于互联网，如引用不当，请联系我们修改。

robots.txt的简单介绍

本文目录：

robotstxt应该放在什么地方

网站下面没有robots.txt怎么办

怎样查看网站robots.txt内容

什么是robots.txt文件

robot.txt的文件格式

robots.txt不支持的代码有哪些

相关推荐

评论抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计

本文目录：

robotstxt应该放在什么地方

网站下面没有robots.txt怎么办

怎样查看网站robots.txt内容

什么是robots.txt文件

robot.txt的文件格式

robots.txt不支持的代码有哪些

相关推荐

评论 抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计

评论抢沙发