Lucene 简明教程

Lucene - Analysis

在前面的章节中,我们了解到 Lucene 使用 IndexWriter 使用 Analyzer 分析文档,然后根据需要创建/打开/编辑索引。在本节中,我们将讨论分析过程中使用的各种类型的 Analyzer 对象和其他相关对象。了解分析过程和分析器的运行机制将让你深入了解 Lucene 如何为文档编制索引。

以下是我们将会逐步讨论的对象列表。

S.No.

Class & Description

1

Token Token 表示文档中的文本或单词,具有相关详细信息,如其元数据(位置、开始偏移量、结束偏移量、标记类型及其位置增量)。

2

TokenStream TokenStream 是分析过程的输出,由一系列标记组成。它是一个抽象类。

3

Analyzer 这是每种 Analyzer 类型的抽象基类。

4

WhitespaceAnalyzer 此分析器根据空格分割文档中的文本。

5

SimpleAnalyzer 此分析器根据非字母字符分割文档中的文本,并将文本转换为小写。

6

StopAnalyzer 此分析器的作用与 SimpleAnalyzer 相同,并会删除 'a', 'an', 'the', 等常用词。

7

StandardAnalyzer 这是最复杂的分析器,能够处理名称、电子邮件地址等。它将每个标记转换为小写,并删除常见单词和标点符号(如有)。