seo培训:图文并茂的告诉你什么是倒排索引!seo优化技术、教程

  倒排索引从逻辑结构和基本思路上来讲非常简单。下面我们通过具体实例来进行说明,使得读者能够对倒排索引有一个宏观而直接的感受。假设文档集合包含五个文档,每个文档内容如图1所示,在图中最左端一栏是每个文档对应的文档编号。我们的任务就是对这个文档集合建立倒排索引。

  

fc4d20fd05904eed87a2147f19bf12f8.jpg
seo技术培训,南昌seo培训,seo免费培训教程,seo学校


  图1 文档集合

  中文和英文等语言不同,单词之间没有明确分隔符号,所以首先要用分词系统将文档自动切分成单词序列。这样每个文档就转换为由单词序列构成的数据流,为了系统后续处理方便,需要对每个不同的单词赋予唯一的单词编号,同时记录下哪些文档包含这个单词,在如此处理结束后,我们可以得到最简单的倒排索引(参考图1-2)。在图2中,“单词ID”一栏记录了每个单词的单词编号,第二栏是对应的单词,第三栏即每个单词对应的倒排列表。比如单词“谷歌”,其单词编号为1,倒排列表为{1,2,3,4,5},说明文档集合中每个文档都包含了这个单词。

  

58e907bbe33a4bb8af08906588acbaad.jpg


  图2 简单的倒排索引

  之所以说图2所示倒排索引是最简单的,是因为这个索引系统只记载了哪些文档包含某个单词,而事实上,索引系统还可以记录除此之外的更多信息。图3是一个相对复杂些的倒排索引,与图3的基本索引系统比,在单词对应的倒排列表中不仅记录了文档编号,还记载了单词频率信息(TF),即这个单词在某个文档中的出现次数,之所以要记录这个信息,是因为词频信息在搜索结果排序时,计算查询和文档相似度是很重要的一个计算因子,所以将其记录在倒排列表中,以方便后续排序时进行分值计算。在图5的例子里,单词“创始人”的单词编号为7,对应的倒排列表内容为:(3:1),其中的3代表文档编号为3的文档包含这个单词,数字1代表词频信息,即这个单词在3号文档中只出现过1次,其它单词对应的倒排列表所代表含义与此相同。

  

24845953ed38428e8c80a1940c712fd3.jpg
seo技术培训,南昌seo培训,seo免费培训教程,seo学校


  图3 带有单词频率信息的倒排索引

  实用的倒排索引还可以记载更多的信息,图4所示索引系统除了记录文档编号和单词频率信息外,额外记载了两类信息,即每个单词对应的“文档频率信息”(对应图4的第三栏)以及在倒排列表中记录单词在某个文档出现的位置信息。

  

b19fadb9aefe494d8c0d165466958e33.jpg


  有了这个索引系统,搜索引擎可以很方便地响应用户的查询,比如用户输入查询词“Facebook”,搜索系统查找倒排索引,从中可以读出包含这个单词的文档,这些文档就是提供给用户的搜索结果,而利用单词频率信息、文档频率信息即可以对这些候选搜索结果进行排序,计算文档和查询的相似性,按照相似性得分由高到低排序输出,此即为搜索系统的部分内部流程,具体实现方案本书第五章会做详细描述。


获取更多知识分享
添加导师 微信、QQ号:3909832

标签: seo教程 seo经验 倒排索引

作者头像
胜一seo截拳道创始人

[黑帽SEO截拳道],奉行“轻理论、重实战”的理念,采取直截了当的授课方法一对一指导。让小白也能快速起飞!

  • 自我介绍:[胜一],2006年开始从事SEO优化工作,操作过境内外多个行业和项目,积累了大量的一线实战经验。结合SEO培训行业的现状,2015年开创“SEO截拳道”理念,为的是让SEO新人能够快速成长、快速变现!我的宗旨是先培养能开车的司机,再把司机培养成汽车工程师!
  • 版权声明:本站原创文章,于2019-10-01,由胜一seo截拳道发表,共 1125个字。
  • 转载请注明出处:胜一seo截拳道,如有疑问,请联系我们
  • 本文地址:http://www.cqms8.com/2019101549.html
上一篇:seo培训:Robots文件的写法不对,网站收录难上加难!
下一篇:黑帽seo培训常用的一些手法揭秘!-镜像、蜘蛛池、站群、泛目录

发表评论