SEO可能由成百个要素组成,其中一个核心要素是Robots.txt文件。这个文本小文件位于你站点的根目录,能严重影响你的站点的优化状况。大多数站长会避免编辑Robots.txt,但这其实并不比杀掉一条蛇更困难。任何有基本常识的人都可以创建或编辑他自己的Robots.txt文件,如果你是新手,那么这篇文章正好就是你所需要的。
如果你的站点仍然没有一个Robots.txt,可以从这里开始学习。如果你的站点或博客已经有个Robots.txt,但是未经优化,那么可以参考这篇文章的做法优化你的Robots.txt。
什么是WordPress的Robots.txt,为什么我们要使用它?Robots.txt帮助搜索引擎机器人判断哪些部份需要爬取,哪些部份需要忽略。当搜索引擎的机器人或蜘蛛光临你的站点,想要对站点进行编目时,它们会先分析Robots.txt。搜索引擎机器人或蜘蛛会接受这个文件的指导来确定索引或忽略你站点中的任何页面。
如果你用的是WordPress,你会在WordPress安装的根目录下发现Robots.txt。对于静态网站,如果你或你的开发者已经创建了一个,你会在你的根目录找到它。你可以打开记事本创建一个文件并把它改名为Robots.txt,然后使用FTP将它上传到你网站的根目录下。下面是我用的Robots.txt,你可以看到它的内容,它位于域名的根目录下。
http://www.16chun.com/robots.txt
如何创建robots.txt文件?正如我早前提醒过的,robots.txt是个正常的文本文件。因此,如果你的网站没有这个东西,你可以打开你喜欢的文本编辑器(比如记事本)创建一个由一条或多条记录组成的Robots.txt。每条记录对于搜索引擎都代表着重要信息。例如:
User-agent: googlebot Disallow: /cgi-bin
如果上面这两行写在Robots.txt,它将允许谷歌机器人索引你站点的每一页。但是根目录的cgi-bin文件夹不允许索引。这意味着谷歌机器人不会去尝试索引cgi-bin目录。通过使用Disallow选项你可以限制任何搜索引擎或蜘蛛索引任何页或文件夹。出于不产生重复内容的目的,有许多站点在存档目录或页面中使用Disallow选项。
你从何得知搜索引擎机器人的名字?你可以从网站日志中得到它的名字,但是如果你希望从搜索引擎获得大量访问者,你应该允许所有搜索引擎的访问。这意味着每个搜索引擎都会索引你的网站。你可以写下面的指令来允许所有搜索机器人,例如:
User-agent: * Disallow: /cgi-bin
不拒绝所有机器人或蜘蛛,这就是为什么每个搜索引擎都会索引你网站的原因。
我们应该做的:
1 不要在Robots.txt中使用注释。
2 不要在行首保留任何空格,也不要留下错误的空格。例如:
错误例子:
User-agent: * Dis allow: /support
正确例子:
User-agent: * Disallow: /support
3 不要改变命令规则。
错误例子:
Disallow: /support User-agent: *
正确例子:
User-agent: * Disallow: /support
4 如果你希望忽略爬取多个目录或页面,不要把它们的名字写成一行。
错误例子:
User-agent: * Disallow: /support
正确例子:
User-agent: * Disallow: /support Disallow: /cgi-bin Disallow: /images
5 正确使用大写和小写字符,例如你希望排除”Download”目录,但是在Robots.txt中写成了”download”。将会使搜索引擎机器人理解错误。
6 如果你希望索引你站点中的所有目录和页面,写:
User-agent: * Disallow:
7 但是如果你不希望你站点中所有页面和目录被索引,写:
User-agent: * Disallow: /
编辑完成Robots.txt后,用任何ftp软件上传到你站点的根目录。
你可以登录你的服务器FTP帐号来编辑你的WordPress的Robots.txt,也可以使用Robots meta这样的插件从WordPress控制面板中编辑Robots.txt。除了添加你的站点地图URL到Robots.txt外,几乎没什么其它需要做的。站点地图帮助搜索引擎机器人找到你的站点文件,因而能够更快速的索引你的页面。
下面是个适用于任何网站的Robots.txt文件,在站点地图指令中,替换站点地图URL成你的博客URL。
sitemap: http://www.shoutmeloud.com/sitemap.xml User-agent: * # disallow all files in these directories Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/ Disallow: /archives/ disallow: /*?* Disallow: *?replytocom Disallow: /wp-* Disallow: /comments/feed/ User-agent: Mediapartners-Google* Allow: / User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Mobile Allow: /
如果保证新的Robots.txt不会影响任何内容?现在你已经改动了你的Robots.txt文件,是时候检查下更新的Robots.txt是否会影响到一些内容。你可以使用google站长工具的”模拟机器人提交工具”来看看是否你的内容可以被机器人访问。步骤很简单,登录谷歌站长工具,转到“模拟谷歌机器人调试和提交”。增加你的站点文章URL并检查访问你的文章是否有任何问题。
你也能够在站长工具中检查Robots.txt导致的爬取错误。在调试>爬取错误中选择Robots.txt限制访问的项目,然后你将看到所有被Robots.txt拒绝的链接。
原创文章,作者:苏葳,如需转载,请注明出处:https://www.swmemo.com/1800.html