Natural Language Processing 简明教程

NLP - Word Sense Disambiguation

我们知道,根据其在句子中的使用上下文,单词具有不同的含义。如果我们谈论人类语言,那么它们也是模棱两可的,因为许多单词可以根据其出现的上下文中以多种方式解释。

在自然语言处理 (NLP) 中,词义消歧可能被定义为确定单词的哪种含义因在特定上下文中使用该单词而被激活的能力。词法歧义、句法或语义歧义是任何 NLP 系统面临的第一个问题之一。具有高准确率的词性 (POS) 标记器可以解决单词的句法歧义。另一方面,解决语义歧义的问题称为 WSD(词义消歧)。解决语义歧义比解决句法歧义更难。

例如,考虑单词 “bass” 的不同含义的两个示例 −

  1. 我可以听到低音

  2. 他喜欢吃烤鲈鱼。

bass 词的出现清楚地表明了不同的含义。在第一句话中,这意味着 frequency ,在第二句话中,这意味着 fish 。因此,如果通过WSD消除歧义,则可以将正确含义分配给以上句子,如下所示:

  1. 我可以听到低音/频率声音。

  2. 他喜欢吃烤鲈鱼/鱼。

Evaluation of WSD

WSD的评估需要以下两个输入:

A Dictionary

第一个评估WSD的输入是词典,用于指定要消除歧义的含义。

Test Corpus

WSD需要的另一个输入是具有目标或正确含义的高注释测试语料库。测试语料库可以分为两类和{s3}:

  1. 这种语料库用于系统中,需要消除一小组单词的歧义。

  2. 这种语料库用于系统中,其中预期消除一段运行文本中所有单词的歧义。

Approaches and Methods to Word Sense Disambiguation (WSD)

WSD的方法和分类根据单词消除歧义中使用的知识来源。

现在让我们看看WSD的四种常规方法:

Dictionary-based or Knowledge-based Methods

顾名思义,对于消除歧义,这些方法主要依赖于字典、treasure和词汇知识库。它们不使用语料库证据来消除歧义。Lesk方法是Michael Lesk在1986年引入的开创性字典方法。Lesk定义,Lesk算法基于它的是 “measure overlap between sense definitions for all words in context” 。然而,在2000年,Kilgarriff和Rosensweig给出了简化的Lesk定义,即 “measure overlap between sense definitions of word and current context” ,这进一步意味着一次识别一个单词的正确含义。这里的当前上下文是句子或段落周围单词的集合。

Supervised Methods

对于消除歧义,机器学习方法利用经过含义注释的语料库来训练。这些方法假设上下文自身可以提供足够的证据来消除含义的歧义。在这些方法中,单词知识和推理被认为是不必要的。上下文被表示为单词的一组“特征”。它还包括有关周围单词的信息。支持向量机和基于内存的学习是WSD最成功的监督学习方法。这些方法依赖于大量的经过手动含义标记的语料库,创建这些语料库非常昂贵。

Semi-supervised Methods

由于缺乏训练语料库,大多数单词含义消除歧义算法都使用半监督学习方法。这是因为半监督方法使用标记数据和未标记数据。这些方法只需要少量带注释的文本和大量未注释的纯文本。半监督方法使用的是从种子数据引导程序的技术。

Unsupervised Methods

这些方法假设相似的含义出现在相似的上下文中。这就是为什么可以根据上下文相似性度量使用单词出现集群来从文本中归纳意义。此任务称为单词含义归纳或区分。非监督方法有可能克服由于不依赖手动工作而导致的知识获取瓶颈。

Applications of Word Sense Disambiguation (WSD)

单词含义消除歧义(WSD)几乎应用于语言技术的所有应用中。

现在让我们看看WSD的范围:

Machine Translation

机器翻译或MT是WSD最明显的应用。在MT中,WSD用于对具有不同含义的不同翻译的单词进行词汇选择。MT中的含义表示为目标语言中的单词。大多数机器翻译系统不使用显式WSD模块。

Information Retrieval (IR)

信息检索(IR)可以定义为一个软件程序,用于处理来自文档存储库中的信息(特别是文本信息)的组织、存储、检索和评估。该系统基本上协助用户查找所需的信息,但不会明确返回问题的答案。WSD用于解决提供给IR系统的查询的歧义。与MT一样,当前的IR系统并不明确地使用WSD模块,他们依赖于这样一个概念:用户将在查询中输入足够多的上下文,以便仅检索相关文档。

Text Mining and Information Extraction (IE)

在绝大多数应用程序中,执行文本的精确分析需要 WSD。例如,WSD 能帮助智能收集系统标记正确的单词。例如,医学智能系统可能需要标记“非法药物”,而不是“医疗药物”。

Lexicography

WSD 和词典编纂可以在循环中协同工作,因为现代词典编纂基于语料库。通过词典编纂,WSD 提供粗略的经验义项分组以及语义在统计上的重要上下文指标。

Difficulties in Word Sense Disambiguation (WSD)

以下是词义消歧 (WSD) 面临的一些困难:

Differences between dictionaries

WSD 的主要问题是确定词义,因为不同的义项可能非常密切相关。甚至不同的词典和词库也可以针对词义提供不同的划分。

Different algorithms for different applications

WSD 的另一个问题是,不同的应用程序可能需要截然不同的算法。例如,在机器翻译中,它采取目标词选择的形式;而在信息检索中,不需要词义清单。

Inter-judge variance

WSD 的另一个问题是,WSD 系统通常通过将其结果应用于任务来进行测试,并与人类的任务进行比较。这被称为人际差异问题。

Word-sense discreteness

WSD 中的另一个困难是,单词无法轻松划分成离散的次义项。