robots.txt规定的搜索引擎爬虫权限标准及nofollow属性作用解析

曲美馨家 次浏览

摘要:robots其实就是禁止蜘蛛来爬行这些页面并不传递其权重的一个文件。但是并不是说在robots文件里写了禁止蜘蛛去收录此网页它就不会被收录,举个最简单的例子:百度一下淘宝首页,他仍然有收录其淘宝首页,只不过没收录这个网站下的其他页面。

Rrobots.txt作为网站根目录中的文档,规定了搜索引擎爬虫访问的权限标准。然而,即便在这类文件中明确设定了特定页面的爬取限制,依旧存在搜索引擎收录此页面的可能性。例如,淘宝官方主页仍可通过百度搜索查询到,而其其他页面则并未被收录。

robots.txt限制范围

通过设置robots.txt中的禁用规则,可使所有未设限的页面均无法被搜索引擎抓取和索引。需要明确指出,该操作并不会影响到已被禁用的具体URL地址,也不会导致站点权重的迁移。

nofollow属性影响

在链接中加入nofollow属性并不妨碍其被搜索引擎索引。该属性仅指示引擎无需传递链接所在页面的权重。若A页面设有指向B页面的nofollow链接,即便B页面已被收录,亦无法从A页面获得权重。

百度禁止搜索的词汇_robots 禁止百度收录_百度强制收录

权重流问题

讨论Nofollow属性时,其对权重流转具有重要影响。以A页权重为100为基准,正常情况下B页可分得约30%权重,剩余部分分配给其他相关链接。而如果在B页设置Nofollow属性robots 禁止百度收录,即使A页权重保持不变,仍为100,也可能导致其他链接(例如C链)获得更多权重占有率。

noindex标签作用

“Noindex”指令即为“停止索引”,旨在令搜索引擎蜘蛛跳过特定页面的索引。请注意,此项设定不会干预页面内其他链接的收录情况。

百度禁止搜索的词汇_robots 禁止百度收录_百度强制收录

noindex原理解析

当爬虫访问放置有"noindex"标记网页时,尽管该页面的内部链接仍将获得权力评估,但此页内容将从索引数据库中删除,搜索引擎检索时将无法找到。

索引库与数据库关系

深入了解索引库虽需投入些时间,但其与数据库息息相关。如有空余,探索搜索引擎蜘蛛运行原理和其与数据库内嵌关系未尝不可。

robots 禁止百度收录_百度强制收录_百度禁止搜索的词汇

应用案例分析

比如,百度服务器已将淘宝主页编入其索引中,为彻底移除该索引,仅需在淘宝网首页设置"noindex"标签便可奏效。

总结而言,Robots.txt直接决定了某个网站首页的收录情况,对于次级页面并无直接影响;Nofollow使得添加该标签的页面及其内部链接得以被收录,但是不赋予其权重;而Noindex则影响到标签页内其他链接的收录情况,同时还能传递相应的权重,但自身的排名可能会因此受挫。

比如形象方面,"noindex"犹如全能无私的楷模robots 禁止百度收录,"nofollow"表现出中立立场为主导,而"robots.txt"则显示出适度的自我防护意识。

随机内容