从网站建设到网站优化再到网站安全监管一条龙服务,为客户从专业角度进行规划,让建站和优化一次到位,专业的事交给专业的人来做,选择点创让您省钱又省力。

SEO外包
专业的SEO优化公司,8年经验沉淀
为客户提供全方位整合营销方案

什么是倒排索引?它的原理是什么?

时间:2020-08-07
此索引表中的每个条目都包含属性值以及具有该属性值的每条记录的地址。 不是由记录决定属性值,而是由属性值决定记录的位置,所以被称为倒置索引(inverted  index  )。 具有倒排索引的文件称为倒排索引文件,仅称为倒排文件
一、倒置索引概述
倒排索引(Inverted  Index  )是全文检索系统的单词文档映射结构中常用的索引方法。 现代搜索引擎的大部分索引都是根据倒排索引建立的。 这是因为在实际的应用程序中,用户使用搜索引擎搜索信息时,大多只输入信息中的某个属性键。输入节目内容,搜索该节目等。
对于庞大的信息数据,为了满足用户的需要,适应信息时代迅速获得信息的潮流,聪明的开发者们在开发搜索引擎时将这些信息数据倒算,开发“关键词——文件”形式的映射结构,在通过物品属性信息来映射物品时,用户倒置索引也称为逆索引,是逆思维运算,是现代信息检索领域最有效的索引结构。
二、关于倒排索引
搜索引擎通常检索的场景是给予几个关键字,找到包含这些关键字的文档。
如何快速查找包含关键字的文档是搜索的关键。 这里使用单词——文档矩阵模型
通过该模型,能够容易地知道某文档中包含哪个关键字,某关键字包含在哪个文档中。
单词-文档矩阵的具体数据结构包括倒排索引、签名文件和后缀树。
倒排索引必须在实际应用程序中基于属性值搜索记录,而lucene是基于倒排索引实现的。
此索引表中的每个条目都包含属性值以及具有该属性值的每条记录的地址。
不是由记录决定属性值,而是由属性值决定记录的位置,所以被称为倒排索引(inverted  index  )。
具有倒排索引的文件称为倒排索引文件,仅称为“倒排文件”。
倒排索引通常表示为关键字,其频率(出现次数)、位置(出现在哪个文章和页面以及相关的日期、作者等信息)相当于对互联网上的数千亿页面进行了索引,就像书的目录和标签一样。 读者想看哪个主题的章节,可以直接从目录中找到相关的页面。 不需要从书的第一页到最后一页,一页一页地搜索。
三、倒置索引概述:
在关系数据库系统中,索引是检索数据的最有效方法,但搜索引擎不能满足特殊要求
1、庞大的数据:搜索引擎面临的是庞大的数据,谷歌、百度这样的大型商业搜索引擎索引都是亿级到百亿级的页数,面临这样庞大的数据,很难有效地管理数据库系统。
2、数据操作简单:搜索引擎使用的数据操作简单,一般只需添加、删除、变更、检索几个功能,并且数据有特定的格式,可以为这些应用程序简单高效地设定修改应用程序典型的数据库系统支持大型、完整的功能,同时减少了速度和空间。 最后,搜索引擎面临大量的用户搜索要求,搜索引擎在搜索过程的设置修改上需要时刻争夺,在索引时完成尽可能大的运算量工作,尽可能减少搜索运算。 在典型的数据库系统中,难以承受这样大量的用户要求,在检索响应时间和检索同时性两方面,都比不上我们设定的索引系统。
四、倒排索引由单词词典和倒排文件两部分组成。
(1) .倒置文件
所有单词的倒排表的顺序存储在有盘的文件中,该文件称为倒排文件,倒排文件是存储倒排索引的物理文件。
(2) .单词词典
单词词典是由文件集合中出现的所有单词组成的字符串集合,按单词词典内的每个索引项目记载着单词本身的信息和指向“倒置表”的指针。
单词词典是转置索引中非常重要的组件,用于保存文档集合中的所有单词的信息,并且记载与某个单词相对应的转置表在转置文件中的位置信息。 在支持检索时,根据用户的检索词,在单词辞典中进行检索,就可以得到对应的倒排列表。
大型文档集合可能包含几十万到几百万个不同的单词
为了快速识别某个单词,直接决定检索的反应速度,需要用高效的数据结构构筑单词词典进行检索。
典型的数据结构包括散列链表和树词典结构。
在线客服
咨询电话
029-89331578

微信客服
电话咨询 在线咨询