网站在切入SEO优化时,往往都是从站内技术问题整改开始,而在这其中,解决“重复内容”是尤为重要且常见的一点。可以毫不夸张的说,99%的网站都会遇到重复内容的问题,但很多人并未意识到它的出现。本文作为一个checklist,希望能帮助大家诊断和解决过多的重复内容页面,完成SEO优化之路的一个重要里程碑。
重复内容的后果
首先了解一下什么是重复内容?重复内容通常是指网站内部或跨域之间完全匹配或大致类似的有一定体量的内容。多数情况下,其成因并不具有欺骗性质,所以并不会导致网站遭受惩罚。
仅在极个别情况下,Google才会认为重复内容的用意是操纵页面排名并欺骗用户,当此类情况出现时,Google才会对相应网站的索引和排名进行适当的调整。
网站出现大量重复内容,会对网站产生负面影响:
浪费爬虫抓取配额:之前有文章提到过,搜索引擎爬虫花在一个网站上抓取页面的总时间是有限的。大量重复页面只会占用爬虫的抓取配额,导致一些真正重要的页面可能无法被抓取到。
影响页面SERP的可见度:如果页面被搜索引擎识别为重复内容,搜索引擎为了提升用户的搜索体验,在SERP尽可能展现多样化的搜索结果,他会过滤掉一些重复内容,不让其出现在靠前排名结果中。
稀释页面权重:如果一个页面可以通过多个URL访问,对于搜索引擎而言,页面权重是分散传递的,不利于聚合。
重复内容的类型
也许你的网站只是简单的CMS模板搭建,页面数量少,问题不多;也许你的网站拥有上百万个页面和多个目标国家市场,非常复杂;也许你使用的CMS功能限制,自定义程度很高。
无论网站是什么量级和特点,出现的重复内容问题都是类似的,可归类分析的,下文将为您详细介绍,可细想一下哪条你有中招?
Caused by站内技术问题
由于网站内部的技术问题导致大量的重复内容,最常见的就是网站上有多个不同的URL却显示相同的内容。
重复内容类型
首页存在多个URL地址可同时访问,例如/,index.html,index.php。
网站存在大小写不统一的URL,对于搜索引擎而言,大小写不同则意味着不同的页面。
页面URL结尾的斜杠处理不一致,不统一。带与不带斜杠结尾也意味着不同的页面。
网站存在多个Flash,iframe框架等内容的页面,但爬虫识别不了,抓取到的页面是一片空白,会被认为重复页面。
多维度导航中的各个过滤项、排序、属性和参数等都对搜索引擎爬虫可见,网站上应用任意一个筛选条件都会生成一个新的页面,再在新的页面应用新的筛选条件就会继续生成更多的页面,这样最终生成的页面就无穷无尽,如果爬虫顺着这路径爬行下去,就会抓取到非常多的页面并容易陷入死循环出不来。CrossBorderDifital曾帮助客户解决过这个问题,SEO流量立马上涨了30%。
网站内部链接带上了各种跟踪参数,例如GA的UTM参数。
站内搜索的动态链接能被爬虫抓取并索引。如/search?keywords=XXX。
网页的备用版本,例如可打印版本页面也被收录了。
Caused by内容策略不当
除了网站技术引发的重复,网站不恰当的内容策略也会引发此类问题,毕竟身处信息爆炸时代,内容生产和过期的速度都很快。
⭐对于拥有几百万页面的大型资讯站点,内容产出频率高,重复内容和内部竞争的问题很是上头。
重复内容类型
发布许多类似的文章,或版本更新迭代的内容,即文章之间重复率较高。
已被新内容替换的过时内容,但两者并未进行合并,保留了旧文章。
内容过于单薄的页面,或是空白内容页面(文章内容为404无法找到,但页面返回200状态码)。此类页面会在Google Search Console中报告为Soft 404错误,同时被判断为重复页面。
互动问答环节
问:如果其他网站抄袭我们的内容,被动的产生重复内容,怎么办?
答:Google算法已经能很好的识别原创内容的网站,不用担心影响排名。您可以与该网站的站长联系,要求其移除相关内容。此外,也可根据《Digital Millennium Copyright Act》提交请求,以请求Google从搜索结果中移除涉嫌侵权的网页。
⭐如果拥有的是零售电商网站呢?网站以产品页面为主,博客文章只占少数,同样不可掉以轻心。
重复内容类型
在不同的产品页面上传重复的客户评论。
大量模板化的产品分类页面description,重复度高,缺少定制化。如下图:
空白的分类页面。例如经过产品调整,某些分类下已没有对应的产品,但站内仍有入口去到该空白页面。
在分页页面中过多的使用重复内容片段。例如产品分类的各个分页页面顶部出现重复的描述内容最为常见。
重复使用样板文字。例如电商网站成百上千的产品页面都重复显示运输、售后等具体条款。
网站的产品文案或详情信息和eBay,Amazon等第三方平台展示的一样。
网站信息直接挪用的供应商提供的原始材料,没有自定义修改。
网站大量页面Title tag和Meta Description内容重复。例如某些B2B网站习惯在每个页面上都堆砌相同的产品关键词。
通过不同的产品分类或促销活动等维度进入到产品页面,URL都是不同的。
Caused by服务器配置问题
如果网站服务器端配置出现错误,也有很大概率出现重复内容问题,但大多数网站运营者都很难意识到。
重复内容类型
网站服务器运用SSL证书之后,http链接却没有重定向到安全协议https,即对搜索引擎而言,网站的所有页面数量*2。
www和non-www同时存在。
在备用子域名上配置负载均衡(如www3.),或是IP层的负载均衡。
测试站点页面被收录,导致和正式环境的网站页面形成重复。
Caused by国际化/多域名的网站
如果你的网站面向国际市场,可能会运营不同的国家顶级域名或二级域名站点,那就需要将您网页的本地化版本告知Google。
重复内容类型
在针对不同目标市场的域名上发布相同或极度相似的内容。
多语言网站没有正确部署<hreflang="lang">标签,或是没有翻译成本地语言,如果网页的主要内容未经翻译,则该网页的本地化版本仅会被视为重复网页。
独立的移动端(例如二级域名m.crossborderdigital,com)和PC站之前没有做好canonical和alternate的双向注释。
如何诊断?
借助搜索引擎查询命令或是相关检查工具,发现并精准找到问题的原因,对我来说,这是SEO需要掌握的核心内容。为了帮助大家快速诊断网站,下面介绍了三种方式:
Google Search Console索引报告
最直接的方式就是在Google Search Console后台的“Coverage”报告中查看索引错误或被排除索引的问题链接列表,它会很清晰的显示你的网站因为什么原因而没有被索引,如下图所示:
搜索引擎查询命令
查找重复内容的另一种简单方法是使用Google查询命令。只需从您的网站中复制一段文本内容,然后将其用双引号括起来即可在Google上进行搜索。
如果想知道网站被收录了多少页面,除了Google Search Console中的Valid URL数量,使用查询命令site:www,example,com也能得到网站页面索引数(取决于网站的规模,仅作为参考值)
或是将下面的这几个查询命令结合起来使用,快速检测出属于重复内容的页面,事半功倍。
✅site:www,example,com
查询网站索引页面数
✅site:www,example,com intitle:keyword
查询网站所有包含keyword的页面
✅site:www,example,com inurl:keyword
查询网站所有URL包含keyword的页面
✅site:www,example,com filetype:xml/txt/pdf
查询网站包含这类资源格式的页面
模拟抓取工具
有需求就有市场,检测网站重复内容的工具越来越多,功能也越来越丰富。找到适合你的,才是最重要的。此处主要推荐模拟爬虫抓取工具,Screaming Frog作为市面上非常流行的模拟抓取工具,它可以帮助你迅速发现网站重复的title,description,h标签,url等信息,并批量导出报告,便于分析。当然,如果你正在使用同类型的抓取工具如Deepcrawl和Sitebulb,综合型SEO工具如Ahrefs和SEMRush,同样可行。
在前面的文章中,笔者已经给大家介绍了网站被降权的因素。那么当遇到降权的问题该怎么办呢?接下来,笔者就结合本身经历过的网站......
网站降权,意味着网站被搜索引擎惩罚,这是一个站长最不愿意面对的局面,因为降权给网站带来的影响非常大。 笔者发现很多人不知......
如果网站出现大量重复内容,会对网站产生负面影响甚至降权,网站在切入SEO优化时,往往都是从站内技术问题整改开始,而在这其......
网站被K了?这篇文章可以帮你解决网站降权的问题!大家都知道小编是一名资深站长,对我就是笔者本人,这些年的积累,让我对建站......
网站降权这种事情一旦遇到那就很麻烦,毕竟是百度送你的大礼包不收也得收,出现这种情况是所有从事SEO最头痛不已的事情,想当......
网站降权都是什么原因?网站降权恢复方法,我相信每个公司都遇到过这种情况。这是一个地方,公司需要特别注意后,建设一个营销网......
武汉网站优化之网站降权的原因有哪些?被降权了怎么办?通常外链被降权是因为近期做了违反搜索引擎规范的操作所导致的,但是Ia......
SEO优化是一个不断调优积累的过程,但是平静的生活总会出现意外的惊喜,网站降权就是SEOer平静的生活中由搜索引擎颁发的......
服务热线:18120550335 / 027-88866235
版权所有:武汉易企推网络科技有限公司
备案号:鄂ICP备17012199号