首页 » SEO教程 » 正文

Hits算法原理与实战应用

强强seo 2018年11月20日 123 views 0

扫一扫用手机浏览

  HITS算法是网页结构挖掘中最具有权威性和使用最广泛的算法。其基本思想是利用页面之间的引用链(外链)来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。

  在整个搜索引擎链接推荐度计算当中,搜索引擎是否对页面链接进行推荐度加分,会从两个维度进行考虑,一个是内容权威度,另外一个就是链接权威度。而Hits算法正是众多SEO人员所常常提到的链接相关性正来源于Hits链接分析算法。

Hits算法原理与实战应用

  为什么会存在Hits这类链接分析算法?

  首先我们需要了解一下搜索引擎的存在目的是什么,相对而言,搜索引擎是提供有价值的检索信息查询。用户将通过关键词搜索的形式,请求到自己需求匹配度较高的信息获取。

  那么为何会存在Hits链接分析这类算法?

  搜索引擎的意义是提供用户有价值的内容查询,但是这类内容信息提供包含搜索关键词请求但不局限于此,比如导航站点、搜藏夹、文章内容超链接等,而前者搜索请求属于用户主动查询检索,后者属于用户被动查询检索。如打开好123导航网站可以找到我想要的电影或者购物网站。如在浏览百度百科“孙俪”个人介绍的时候发现“邓超”的锚文本超链接指向另一个百科,当用户看到孙俪个人百科的时候正好有需求想了解“邓超”的个人资料,那么用户不需要通过搜索引擎主动搜索“邓超”个人信息即可查询到用户所需要的个人资料,这也是搜索引擎中内链的真正作用。

  什么是内容权威度,什么是链接权威度

  1、什么是内容权威度?

  内容权威度包括两种类型,一种是网站主题相关性,一种是网页主题相关性。

  A、如装修网站A(假设网址为www.a.com)首页链接指向装修网站B(假设网址为www.b.com)首页链接,这属于网站主题相关性链接,也称为内容权威链接;

  B、如地区门户网站C有一个内容页面阐述装修相关内容的网页(假设页面网址为www.a.com/1.html)中有锚文本关键词“装修”指向装修网站B(假设网址为www.b.com)首页链接,尽管网站主题不相关,但是网页主题相关,这属于网页主题相关性,也成为内容权威链接。

  2、什么是链接(域名)权威度?

  链接权威度是指一类特殊站点指向其他网站的锚文本超链接,如搜狐网x.html网页中包含锚文本Y,并且Y锚文本指向网站C(随机行业站点),那么搜狐网即可给与网站C进行链接推荐度加分。但权威链接站点包含不限于搜狐、腾讯、新浪等大型综合站点。也包含了各种综合垂直网站、政府机构、地区门户等站点类型。

  Hub页面与Authority页面是什么

  在Hits算法当中,计算内容权威与链接权威有算法本身特有的方式来表示,即Hub页面(枢纽页面)和Authority页面(权威页面)

  所谓“Authority”页面,是指与某个领域或者某个话题相关的高质量网页,比如搜索引擎领域,Google和百度首页即该领域的高质量网页,比如视频领域,优酷和土豆首页即该领域的高质量网页。

  所谓“Hub”页面,指的是包含了很多指向高质量“Authority”页面链接的网页,比如hao123首页可以认为是一个典型的高质量“Hub”网页。因为好123聚合了多个“Authority”网页链接,如指向了各类权威商城站点(如淘宝天猫),各类权威视频站点(如腾讯视频)

  一个hub页面指向一个或多个Web页面,它提供了指向权威页面的链接集合。hub页面本身可能不是很突出,或者可能没有几个链接指向它们。但是hub页面却提供了指向就某个公共话题而言最为突出的站点链接。该类页面可以是主页上的推荐链接列表,如:关于搜索引擎站点,或者关于视频点播的站点。hub页面起到了隐含说明某话题的权威页面的作用。

  一般而言,好的hub指向许多好的权威页面;好的权威页面是指由许多好的hub页面所指向的页面。

  这种hub与authority之间的相互作用关系,可以用于权威页面的获取和高质量Web结构和资源的自动获取。

  Hub页面与Authority页面关系是什么

  基本假设1:一个好的“Authority”页面会被很多好的“Hub”页面指向;

  基本假设2:一个好的“Hub”页面会指向很多好的“Authority”页面;

  HITS算法的目的即是通过一定的技术手段,在海量网页中找到与用户查询主题相关的高质量“Authority”页面和“Hub”页面,尤其是“Authority”页面,因为这些页面代表了能够满足用户查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。

  Hits算法存在的问题

  HITS算法整体而言是个效果很好的算法,目前不仅应用在搜索引擎领域,而且被“自然语言处理”以及“社交分析”等很多其它计算机领域借鉴使用,并取得了很好的应用效果。尽管如此,最初版本的HITS算法仍然存在一些问题,而后续很多基于HITS算法的链接分析方法,也是立足于改进HITS算法存在的这些问题而提出的。

  归纳起来,HITS算法主要在以下几个方面存在不足:

  1.计算效率较低

  2.主题漂移问题

  3.易被作弊者操纵结果

  4.结构不稳定

  Hits算法存在的问题-计算效率低

  因为HITS算法是与查询相关的算法,所以必须在接收到用户查询后实时进行计算,而HITS算法本身需要进行很多轮迭代计算才能获得最终结果,这导致其计算效率较低,这是实际应用时必须慎重考虑的问题。通俗点理解就是当一条外链发布出去以后,搜索引擎当蜘蛛抓取到该链接以及锚文本值的同时就马上计算该链接的推荐度分值(包含具备推荐度加分和不具备推荐度加分以及减分,减分情况如作弊链接等),但是由于Hits算法的迭代性,不会直接一次性计算后立马进行链接加分操作,而需要大量的重复链接迭代计算然后进行最终的加分结果,所以很多情况下,发布的外链所看到的效果需要等待一定的时间段才能看到排名效果。之所以需要进行迭代计算,是因为搜索引擎需要考虑到链接的稳定性,以及外链的页面是否具备推荐度(比如相关性、权威性等)等多个因子综合迭代计算,不同的搜索引擎迭代计算的周期也不同。

  Hits算法存在的问题-主题漂移问题

  如果在扩展网页集合里包含部分与查询主题无关的页面,而且这些页面之间有较多的相互链接指向,那么使用HITS算法很可能会给予这些无关网页很高的排名,导致搜索结果发生主题漂移,这种现象被称为“紧密链接社区现象”(Tightly-Knit CommunityEffect)。通俗点理解就是指交换的友情链接并不相关,但是这类链接会互相交换链接,而由于Hits算法所存在的缺陷会导致这类站点的链接进行推荐度加分,所以链接不相关也会引起排名提升,但是相对而言,相关性的友情链接比不相关的友情链接在Hub页面上更加具备推荐度。

  Hits算法存在的问题-容易作弊

Hits算法存在的问题-容易作弊

  HITS从机制上很容易被作弊者操纵,比如作弊者可以建立一个网页,页面内容增加很多指向高质量网页或者著名网站的网址,这就是一个很好的Hub页面,之后作弊者再将这个网页链接指向作弊网页,于是可以提升作弊网页的Authority得分。比如右图所示,一个台球桌网站A,指向了不相关的混凝土网站、品牌策划网站、以及新浪等权威站点。那么通过Hits的算法所存在的问题我们可以发现,该特征不仅显示了Hits算法的紧密链接社区现象,另一点则是台球桌站点形成了高质量的Hub页面,从而可以对不相关的混凝土等站点进行推荐度加分。

  Hits算法存在的问题-链接结构不稳定

  所谓结构不稳定,就是说在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。这也是为何大家常常说发布的外链需要讲究稳定性,而稳定性的链接是出之于搜索引擎Hits算法当中。

  Hits算法总结

  通过了解搜索引擎Hits链接分析算法,是否已经了解到真正的高质量外链是什么?

  在整个Hits算法当中,出现了SEO们常说的三大高质量外链特征。

  1、权威链接

  2、链接相关性

  3、链接稳定性

  而不管满足哪一点,都满足了Hits算法的链接有效性。并且可以通过该算法的几大特征进行有效链接发布。

  Hits算法实战应用操作案例

  根据对Hits算法的了解,我们可以借助Hits算法的几个特征关系以及所存在的缺陷问题去发布一些高质量具备有推荐度的外链。如下图所示:

  A、如利用Hits算法的Hub页面和Authority页面结构操作有价值的外链;

  B、如在Authority页面发布内容权威度相关的链接(优化站点链接)

  C、如果发布的内容相关,而站点类型不相关并且不是Authority站点,可以在内容里面加入一些Authority站点来达到形成一个高质量的Hub页面,congestion对优化站点外链进行链接加分。

Hits算法实战应用操作案例

Hits算法实战应用操作案例


赞(15

发表评论