网站优化

网站优化

Products

当前位置:首页 > 网站优化 >

搜索引擎为什么要重视原创 百度劲风算法对聚合页SEO的影响

GG网络技术分享 2025-03-18 16:14 0


什么叫做聚合页?

聚合页,是指利用现有内容生成的复合型页面。最典型的就是我们的tag标签页。他是通过一个关键词对现有内容进行重新归类而生成的页面。

最典型的方式,会利用站内搜索的机制,通过整理好的一堆关键词,由于这些词既不能在其他页面进行覆盖,又比长尾关键词流量多一些。像赵彦刚博客,我的核心词基本都是围绕seo展开的,而针对具体的知识点例如nofollow、网站收录等细化的词,一篇文章参与排名,对比一个tag标签页而言,相对tag标签页会更好一些。它的可操作性会更强、链接算法上给到的支持相对实现成本又较低。基本就成了这类词的首先布局页面。

但tag标签页如果量小的话,工作上没有太大的工作量增加。但如果是成千上万这样的词,就很难用tag标签的实现方式去做了(tag标签页的实现方式是seo先梳理一定的tag词,然后给到编辑,编辑在书写内容的过程中选择与这篇文章相关的tag标签。可能是1个,也可能是几个。但如果tag词在成千上万,编辑就麻烦了!)。

所以,这时候更好用的方式便成了将这成千上万的词通过站内搜索的形式生成,哪怕是10万、100万的词,程序自动帮我实现,找到有相关性的文章从而生成一个一个的聚合页。然后在基于这些页面进行基础的SEO优化、解决网站收录,从而提升网站权重获得排名的一种方式。

百度劲风算法主要是指针对恶意利用聚合页提升网站关键词排名,而进行系统性的重新评估,并根据相关的识别参数与特征,针对目标页面,进行合理性调整的一个排序策略。

劲风算法的作用:

百度劲风算法主要是打击恶意聚合页面,让搜索引擎回归本真,提供给用户更加合理与友好的搜索结果,其中,所谓的恶意聚合页面,主要包括:

①领域分散

这是一个非常容易理解的概念,它主要就是强调,你的聚合页面中的内容,要保持同行业大类的统一性,举一个特别简单的例子,如果你的TAG页面出现电子产品和服装鞋帽,并且占比差不多,那么,这就造成领域不垂直,而内容领域分散。

②文不对题

所谓的文不对题主要是指你的聚合页面中,聚合页Title标签中的名称和页面中相关页面的标题名称或者描述摘要内容,完全不相互符合。

比如:你的聚合标签名称是:SEO教程

而你的实际展现页面中,有的标题是装修装饰的内容,或者标题下方描述内容不符合,这种非常不相关。

③搜索结果

这是一个非常容易理解的概念,简单理解:如果你的网站产生大量的搜索结果页面,可能也存在被算法打击的范围。

但这里我有一个疑问:相关性比较高的搜索结果页面,同样要被打击吗?

④无效信息

当然官方公布的更后一个恶意聚合页面就是无效的信息,也是做了一个举例,你是的聚合页主要讲大学排行榜,而你的结果中,主讲中专页面排名。

那么,这种页面就是没有任何意义,即使搜索点击进来,也会产生较高的跳出率。

劲风算法自查:

当然,我们认为百度算法刚刚上线,到完全实施应该还是有一定小的时间周期空余,可以让我们尽快整改自己的网站,以免被新上线的算法影响,导致自身网站流量受损。

你可以尝试采用如下策略:

1、页面修正

我们知道理论上任何一个试图参与搜索排名的页面,它都应该提供自己有效价值,这就要求我们确保聚合页面具有一定的搜索需求,并且:

①确保聚合页面标题与页面中每一个标题的内容具有较高的相关性。

②尽量避免在TAG页面中,做整站非相关性内容的置顶。

③确保页面具有主题性,页面中的展现内容,可以覆盖本行业中,大量相关的实际问题。

2、页面屏蔽

针对官方提出的搜索结果页面,为了提高页面的用户体验,而不影响搜索引擎的友好性,我们建议尽量利用Robots.txt文件去屏蔽这些页面,禁止让搜索引擎抓取。

3、定期监测

所谓的定期监测,简单理解就是我们需要花费一定的时间周期,查看页面是否出现不相关信息的情况,特别是一些大型网站,某些聚合页面都是自动调用。

当劲风算法上线之后,我们还是建议避免TAG标签自动调用,更好是手动配置,并定期审查。

恶劣聚合页问题主要包括以下四种类型:

1、页面内容与站点本身所属领域不符,或站点无专注领域,多为采集拼凑内容。

2、页面内容与标题及页面中标记的标签不符。

3、由网站搜索功能生成的静态搜索结果页。

4、空短、无有效信息、失效的聚合页。

这一算法特别针对那些WordPress网站,因为wp网站有一个添加标签的功能,很多人利用标签做聚合内容,这也是大家的一个习惯!

 

一、搜索引擎为什么要重视原创1.1 采集泛滥化      来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。1.2 提高搜索用户体验数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。1.3 鼓励原创作者和文章转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。二、采集很狡诈,识别原创很艰难2.1 采集冒充原创,篡改关键信息当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。2.2 内容生成器,制造伪原创利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。2.3 网页差异化,结构化信息提取困难不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。三、百度识别原创之路如何走?3.1 成立原创项目组,打持久战面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。3.2 原创识别“起源”算法互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。3.3 原创星火计划我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

标签:

提交需求或反馈

Demand feedback