颇具讽刺意味的说明:canonical(规范)是一个来自罗马天主教传统的词汇,在那里列出来了一个被认为可信的圣书列表,并被授予“canonical”的新约福音书这个称呼。讽刺之处在于:花了罗马天主教堂大约300年,以及数不清的战争的代价才得出一个圣书清单,他们甚至采纳了同一个故事的4个版本。
鉴别重复内容是解决问题的开始,你可能不清楚你的网站上或者网站内容里是否存在重复内容。我来给出一些找出是否存在这种问题的方法。
谷歌站长工具
谷歌站长工具是一个检查重复内容的出色工具。如果你进入谷歌站长工具中你的站点URL。查看搜索展示->HTML优化,你会看到关于一些重复内容的提示。如果页面有重复的标题或者重复的描述,这肯定不是什么好事。点击结果页面,会显示出有重复标题或描述的URL,这对找到问题很有帮助。麻烦之处在于,如果你有一篇象“关键字x”的文章,它在两个分类里都有,而且标题可能不同。例如可能是”Keyword X – Category X – Example Site”和”keyword X – Category Y – Example Site”。谷歌不会把它们当成重复标题,但通过搜索你能找到它们。
搜索标题和摘录
有几种搜索操作符对这类情况特别有用。如果你想要找到你的站点里所有含关键词X的文章URL,你可以在谷歌里键入下面的搜索语句:
site:example.com intitle:"Keyword X"
谷歌将为你显示出所有包含此关键词的文章。intitle部份提供的细节越多,就更容易清除重复内容。你可以使用同样的方法在网络中定位重复内容。例如你文章的完整标题是”keyword X – why it is wawsome”,你可以搜索:
intitle:"Keyword X - why it is awesome"
谷歌将为你查出所有匹配这个标题的网站。有时甚至查找你文章里的一或两条完整句子也是有价值的,因为一些采集爬虫可能会改掉你的标题。在某些情况下,当你这样搜索时,谷歌可能在最后一页结果下面显示这样的提示:
为了显示给你最接近的结果,我们忽略了一些相似的项目。如果你需要的话,你可以点击这个链接重复搜索并在结果中包含忽略的项目。
这是一个谷歌已经在搜索结果中”消除重复“的标记。这还不够详细,因此我们点击这个链接,查看所有忽略的其它结果来看看是否能够纠正这些重复。
在成功的找出重复内容之后,下面的工作就是消除它们了。
原创文章,作者:苏葳,如需转载,请注明出处:https://www.swmemo.com/1814.html