Lucene

zhouwenjian

浏览: 14301 次
性别:
来自: 北京

最近访客更多访客>>

kencsdn

paladin1988

littlej1002

yuanhang666

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (43)

社区版块

存档分类

1. 全文检索的基本原理

Lucene 是一个高效的，基于Java 的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。

什么叫做全文检索呢？这要从我们生活中的数据说起。我们生活中的数据总体分为两种：结构化数据和非结构化数据。

结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。

当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。
非结构化数据又一种叫法叫全文数据。

按照数据的分类，搜索也分为两种：

对结构化数据的搜索 ：如对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对文件名，类型，修改时间进行搜索等。
对非结构化数据的搜索 ：如利用windows的搜索也可以搜索文件内容，Linux下的grep命令，再如用Google和百度可以搜索大量内容数据。

对非结构化数据也即对全文数据的搜索主要有两种方法：

一种是顺序扫描法 (Serial Scanning)：所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。如果你有一个80G硬盘，如果想在上面找到一个内容包含某字符串的文件，不花他几个小时，怕是做不到。Linux下的grep命令也是这一种方式。大家可能觉得这种方法比较原始，但对于小数据量的文件，这种方法还是最直接，最方便的。但是对于大量的文件，这种方法就很慢了。
有人可能会说，对非结构化数据顺序扫描很慢，对结构化数据的搜索却相对较快（由于结构化数据有一定的结构可以采取一定的搜索算法加快速度），那么把我们的非结构化数据想办法弄得有一定结构不就行了吗？这种想法很天然，却构成了全文检索的基本思路，也即将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。

这种说法比较抽象，举几个例子就很容易明白，比如字典，字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。

这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search) 。

2. Lucene简介

Lucene是什么：Lucene是apache软件基金会jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

Lucene是一个基于Java的全文搜索，不是一个完整的搜索应用，而是一个代码库和 API，可以方便地为应用提供搜索功能。实际上Lucene的功能就是将开发人员提供的若干个字符串建立索引，然后提供一个全文搜索服务，用户将搜索的关键词提供给搜索服务，搜索服务告诉用户关键词出现的各字符串。

3. 基本流程

lucene包含两部分：建立索引和搜索服务。建立索引是将源（本质是字符串）写入索引或者将源从索引中删除；进行搜索是向用户提供全文搜索服务，用户可以通过关键词定位源。

索引的流程：
- 使用Analyzer处理源字符串，包括：分词，即分成一个个单词；去除stopword（可选）。
- 将源中的有效信息以不同Field的形式加入Document中，并把Document加入索引，从而在索引中记录有效的Field。
- 将索引写入存储器（内存或磁盘）。
搜索的流程：
- 用户提供搜索关键词，经过analyzer处理。
- 对处理后的关键词搜索索引找出对应的Document。
- 用户根据需要从找到的Document中提取需要的Field。

4. 基本概念

Analyzer

Analyzer 的作用是分词，并去除字符串中的无效词语。分词的目的是把字符串按某种语义规则划分为若干个词。英文中比较容易实现分词，因为英文本身就是以单词为单位，已经用空格分开；而中文则必须以某种方法将连成一片的句子划分成一个个词。无效词语，如英文中的“of”、“the”和中文中的“的”、“地”等，这些词语在文章中大量出现。但是本身不包含关键信息，去掉后有利于缩小索引文件、提高命中率和执行效率。

Document
用户提供的源可以是文本文件、字符串或者数据库表中的一条记录等。一个源字符串经过索引之后，以一个Document的形式存储在索引文件中。搜索服务的结果也是以Document列表的形式返回。
Field

一个Document可以包含多个信息域，如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域以Field的形式保存在Document中。

Field有两个属性：存储和索引。存储属性可以控制是否对这个Field进行存储；索引属性可以控制是否对该Field进行索引。这似乎多此一举，但事实上对这两个属性的正确组合很重要。

下面举例说明：一篇文章需要对标题和正文进行全文搜索，所以把这两个Field的索引属性设置为真；同时希望能直接从搜索结果中提取文章标题，所以把标题 Field的存储属性设置为真。但是正文Field太大了，为了缩小索引文件，将正文Field的存储属性设置为假，需要访问时再直接读取文件正文；希望能从搜索结果中提取最后修改时间；但是不需要对它进行搜索，所以把最后修改时间Field的存储属性设置为真，索引属性设置为假。

Field的两个属性禁止全为假的情况因为这对建立索引没有意义。

Segment
建立索引时，并不是每个Document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，每个小文件都是一个Segment。
Term
Term表示文档的一个词，是搜索的最小单位。Term由两部分组成：所表示的词语和这个词语所出现的Field。
Token
Token是Term的一次出现，它包含Trem文本和相应的起止偏移，以及一个类型字符串。一句话中可以出现多次相同的词语，它们都用同一个Term表示，但是用不同的Token，每个token标记该词语出现的位置。

分享到：