robots.txt规定的搜索引擎爬虫权限标准及nofollow属性作用解析

摘要：robots其实就是禁止蜘蛛来爬行这些页面并不传递其权重的一个文件。但是并不是说在robots文件里写了禁止蜘蛛去收录此网页它就不会被收录，举个最简单的例子：百度一下淘宝首页，他仍然有收录其淘宝首页，只不过没收录这个网站下的其他页面。

Rrobots.txt作为网站根目录中的文档，规定了搜索引擎爬虫访问的权限标准。然而，即便在这类文件中明确设定了特定页面的爬取限制，依旧存在搜索引擎收录此页面的可能性。例如，淘宝官方主页仍可通过百度搜索查询到，而其其他页面则并未被收录。

robots.txt限制范围

通过设置robots.txt中的禁用规则，可使所有未设限的页面均无法被搜索引擎抓取和索引。需要明确指出，该操作并不会影响到已被禁用的具体URL地址，也不会导致站点权重的迁移。

nofollow属性影响

在链接中加入nofollow属性并不妨碍其被搜索引擎索引。该属性仅指示引擎无需传递链接所在页面的权重。若A页面设有指向B页面的nofollow链接，即便B页面已被收录，亦无法从A页面获得权重。

百度禁止搜索的词汇_robots 禁止百度收录_百度强制收录

权重流问题

讨论Nofollow属性时，其对权重流转具有重要影响。以A页权重为100为基准，正常情况下B页可分得约30%权重，剩余部分分配给其他相关链接。而如果在B页设置Nofollow属性robots 禁止百度收录，即使A页权重保持不变，仍为100，也可能导致其他链接（例如C链）获得更多权重占有率。

noindex标签作用

“Noindex”指令即为“停止索引”，旨在令搜索引擎蜘蛛跳过特定页面的索引。请注意，此项设定不会干预页面内其他链接的收录情况。

百度禁止搜索的词汇_robots 禁止百度收录_百度强制收录

noindex原理解析

当爬虫访问放置有"noindex"标记网页时，尽管该页面的内部链接仍将获得权力评估，但此页内容将从索引数据库中删除，搜索引擎检索时将无法找到。

索引库与数据库关系

深入了解索引库虽需投入些时间，但其与数据库息息相关。如有空余，探索搜索引擎蜘蛛运行原理和其与数据库内嵌关系未尝不可。

robots 禁止百度收录_百度强制收录_百度禁止搜索的词汇

应用案例分析

比如，百度服务器已将淘宝主页编入其索引中，为彻底移除该索引，仅需在淘宝网首页设置"noindex"标签便可奏效。

总结而言，Robots.txt直接决定了某个网站首页的收录情况，对于次级页面并无直接影响；Nofollow使得添加该标签的页面及其内部链接得以被收录，但是不赋予其权重；而Noindex则影响到标签页内其他链接的收录情况，同时还能传递相应的权重，但自身的排名可能会因此受挫。

比如形象方面,"noindex"犹如全能无私的楷模robots 禁止百度收录，"nofollow"表现出中立立场为主导，而"robots.txt"则显示出适度的自我防护意识。