Lucene 简明教程
Lucene - Analysis
在前面的章节中,我们了解到 Lucene 使用 IndexWriter 使用 Analyzer 分析文档,然后根据需要创建/打开/编辑索引。在本节中,我们将讨论分析过程中使用的各种类型的 Analyzer 对象和其他相关对象。了解分析过程和分析器的运行机制将让你深入了解 Lucene 如何为文档编制索引。
以下是我们将会逐步讨论的对象列表。
S.No. |
Class & Description |
1 |
Token Token 表示文档中的文本或单词,具有相关详细信息,如其元数据(位置、开始偏移量、结束偏移量、标记类型及其位置增量)。 |
2 |
TokenStream TokenStream 是分析过程的输出,由一系列标记组成。它是一个抽象类。 |
3 |
Analyzer 这是每种 Analyzer 类型的抽象基类。 |
4 |
WhitespaceAnalyzer 此分析器根据空格分割文档中的文本。 |
5 |
SimpleAnalyzer 此分析器根据非字母字符分割文档中的文本,并将文本转换为小写。 |
6 |
StopAnalyzer 此分析器的作用与 SimpleAnalyzer 相同,并会删除 'a', 'an', 'the', 等常用词。 |
7 |
StandardAnalyzer 这是最复杂的分析器,能够处理名称、电子邮件地址等。它将每个标记转换为小写,并删除常见单词和标点符号(如有)。 |