关于索引搜索引擎优化必须经历和探索的一个阶段,但大多数搜索引擎优化人员往往忽视搜索引擎的核心本质,从而盲目追求所谓的用户体验和原创文章。最终,排名仍然像以前一样停滞不前。如果搜索引擎结果的排名被认为是一次考试,那么你最多只能参加三分之一的考试。

为了理解倒排索引的前奏,我们应该进一步研究搜索引擎的核心排序过程,从蜘蛛抓取到爬行,从网页重复数据删除到链接分析,从网页包含到索引建立,从有效索引到结果排序,每一步都是紧密相连的。搜索引擎经历的三个阶段也是如此。随着搜索引擎的发展和变化,无论搜索引擎优化如何变化,从最初的文本时代到后来的链接分析时代在当前的用户时代从未改变。
许多人都在思考一个问题。网页的包含已经达到数万个级别,但是获得的流量是两位数。为什么参与页面的包含流量变得越来越小,以及是什么使被包含的页面无法参与排名?这个主题是本文的核心。对于结果排名,搜索引擎在最基本的蜘蛛中爬来爬去之后,有一个非常重要的链接叫做网页重复数据删除,网页重复数据删除也是借用搜索引擎算法的文档检索模型的一个点。

本质上,搜索引擎不能像人一样判断内容的相似性,倒排索引是区分网页相似性的核心基石。原则上,倒排索引(inverted index)是通过文档集的分词技术分割网页的所有内容,并通过TF计算相应的关键词频率,用于查询词查询的相似度检测,而相似度较小的网页值计算的结果将用于更好的网页结果排序。虽然简单的倒排索引在网页重算上不能达到很好的效果,但是在文献检索的向量空模型中也包含了TF-IDF算法,这使得倒排索引对于网页相似度的计算更加准确和有价值。
大多数seo人员容易忽略倒排索引的存在,特别是在大型网站架构中,倒排索引的作用至关重要,如果倒排索引使用得当,那么你不仅可以节省SEO问题,还可以解决一种程序和操作并存的流量深度。

发布评论

分享到:

你是第一个吃螃蟹的人
发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。