1. 苏葳的备忘录首页
  2. 因特网

网站产生重复内容的一些原因

搜索引擎 seo 重复谷歌这样的搜索引擎存在着一个问题,他们称之为“重复内容”。你的同一块页面内容无规则的存在于站点的多个页面地址上,因此他们不知道该显示哪个。尤其是当其它人开始链接到同一内容的所有这些不同的版本时,问题就更严重了。这篇文章的意图在于帮助你理解重复内容的各种产生原因,并且找到每个问题的解决办法。你可以想象自已站在一个十字路口,指向同一最终目的地的路标却指向两个不同的方向,该走哪条路?更糟糕的情况是目的地也不相同,但这并不比前一种困难多少。

作为读者,你并不在意这些,因为你获得了你想要的内容。但是搜索引擎需要挑选出哪一条显示在搜索结果中,因为它不希望把同一内容显示两次。

我们假设一下,你的关于关键字x的文章显示在 http://www.example.com/keyword-x/,并且完全相同的内容存在于 http://www.example.com/article-category/keyword-x/。当然这并不是虚构的状况,因为这种情况在大多数现代的内容管理系统(CMS)中存在。你的文章被几个博客作者转载,一些作者链接到了第一个URL,另一些链接到了第二个。这个看似搜索引擎要解决的麻烦事儿背后,其实是你的麻烦。重复内容是你的麻烦,因为这些链接提升了不同URL的权重。如果他们都链接到同一URL,你的关键字X的页面评级进入前10的机会将大大提升。(分散了权重)。

有成打的产生重复内容的原因,大多数时候是技术问题。偶而某人会决定把相同的内容放在不同地方而不区分哪一个是原始版本。对我们中的大多数来说这并不常见。相比之下技术性的原因更多样化一些。它大多发生在开发者没有以浏览器或用户的角度思考,更不用说搜索引擎蜘蛛了。在之前提到过的文章例子中,比如http://www.example.com/keyword-x/ 和http://www.example.com/article-category/keyword-x/两个链接的内容,如果你问开发者,他会说只出现过一次。

URL概念的误区

开发者们疯了吗?不,他们讲的只是另外一种语言。你看到的整个网站可能是以一个数据库系统驱动着的,只有一篇文章,网站系统软件允许数据库中的同一篇文章通过几个不同的URL展示出来。这是因为在开发者眼里,数据库中的文章的唯一标识符是文章ID,而不是URL。然而对于搜索引擎,URL是一块内容的唯一标识符。如果你对开发者解释这些,他就会开始明白问题所在。然后,如果他象我知道的或者一起合作过的大多数开发者一样,他就会逐渐了解到为什么他和搜索引擎都搞不定这件事。他犯了个错误。

Session ID

你通常希望跟踪你的访问者的行为,或努力实现这一点,例如,在购物车中保存他们希望购买的东西。为了做到这一点,你需要给他们分配一个”Session”。一个Session基本上是一个你的访问者在你网站上行为的简单历史,可以包含类似于他们购物车里的物品之类。为了在一个访问者点击跳转到另一个页面时保持Session,唯一的Session标识符,称为Session ID的,需要被保存在某处。最常用的解决方案是cookies,然而,搜索引擎一般不会保存这个cookies。

这时的问题就在于一些系统重新在URL中使用Session ID。网站上每个内部链接把Session ID添加到URL后面,因为Session ID是Session唯一的,所以会创建出新的URL,继而产生重复的内容。

用于追踪和排序的URL参数

另一个产生重复内容的原因是并不改变页面内容的URL参数的使用。例如在tracking链接里。你看到http://www.example.com/keyword-x/ 和 http://www.example.com/keyword-x/?source=rss这两个URL对于搜索引擎来说实际上并非同一URL。后一个链接使你可以追踪访问者的来源,一个非常不希望发生的结果是,这也许会使你很难提升排名。

当然不仅是追踪参数会有这种影响,你添加到URL的的每个不改变页面核心内容的参数都会影响。无论这些参数用于改变一系列产品的排序,或者为了显示另一个侧边栏,都会导致重复内容。

采集爬虫和内容供稿

虽然大多数原因是你自己造成的,或者非常罕见的网站错误。但有时其它网站会经过或未经允许使用你的内容。他们并不总是会链接到你的原始文章,因此搜索引擎找不到它,以致于不得不处理同一篇文章的另一个版本。

你的网站越广为人知,你会越来越多的被采集爬虫光顾,使得问题愈发严重。

参数次序

另一个常见的原因是CMS没有使用良好干净的URL,而是象/?id=1&cat=2这样的链接,这里的ID指向文章,cat指向分类。URL /?cat=2&id=1在大多数网站系统中会生成完全相同的结果,但他们对搜索引擎来说完全不同。

评论分页

在我钟爱的WordPress,以及一些其它CMS系统里,有个选项是为你的评论分页。这会导致文章URL间的内容重复,比如文章URL+/评论页1/,/评论页2/之类的。

打印友好页

如果你的CMS创建了打印友好页面,并且你从你的文章页面中链向了它,大多数情况下谷歌会找到它,除非你特别指出忽略它们。现在谷歌要显示哪一个版本?是当前这个充满着广告和无关紧要的附加内容的页面,还是仅仅是你的文章?

WWW和不带WWW

书本里最古老的但搜索引擎仍然会搞错的是,WWW和非WWW的两个网站版本会造成重复的内容,如果两个版本的网站都能够访问的话。一个没这么常见但我曾经碰到过的是,HTTP和HTTPS的重复内容,这里同样的内容被两者分别展示出来。

以上是网站重复内容产生的一些原因分析,之后会解释如何解决这些重复内容的问题。

原创文章,作者:苏葳,如需转载,请注明出处:https://www.swmemo.com/1803.html

发表评论

邮箱地址不会被公开。 必填项已用*标注