Natural Language Processing 简明教程
NLP - Word Sense Disambiguation
我们知道,根据其在句子中的使用上下文,单词具有不同的含义。如果我们谈论人类语言,那么它们也是模棱两可的,因为许多单词可以根据其出现的上下文中以多种方式解释。
在自然语言处理 (NLP) 中,词义消歧可能被定义为确定单词的哪种含义因在特定上下文中使用该单词而被激活的能力。词法歧义、句法或语义歧义是任何 NLP 系统面临的第一个问题之一。具有高准确率的词性 (POS) 标记器可以解决单词的句法歧义。另一方面,解决语义歧义的问题称为 WSD(词义消歧)。解决语义歧义比解决句法歧义更难。
例如,考虑单词 “bass” 的不同含义的两个示例 −
-
我可以听到低音
-
他喜欢吃烤鲈鱼。
bass 词的出现清楚地表明了不同的含义。在第一句话中,这意味着 frequency ,在第二句话中,这意味着 fish 。因此,如果通过WSD消除歧义,则可以将正确含义分配给以上句子,如下所示:
-
我可以听到低音/频率声音。
-
他喜欢吃烤鲈鱼/鱼。
Approaches and Methods to Word Sense Disambiguation (WSD)
WSD的方法和分类根据单词消除歧义中使用的知识来源。
现在让我们看看WSD的四种常规方法:
Dictionary-based or Knowledge-based Methods
顾名思义,对于消除歧义,这些方法主要依赖于字典、treasure和词汇知识库。它们不使用语料库证据来消除歧义。Lesk方法是Michael Lesk在1986年引入的开创性字典方法。Lesk定义,Lesk算法基于它的是 “measure overlap between sense definitions for all words in context” 。然而,在2000年,Kilgarriff和Rosensweig给出了简化的Lesk定义,即 “measure overlap between sense definitions of word and current context” ,这进一步意味着一次识别一个单词的正确含义。这里的当前上下文是句子或段落周围单词的集合。
Supervised Methods
对于消除歧义,机器学习方法利用经过含义注释的语料库来训练。这些方法假设上下文自身可以提供足够的证据来消除含义的歧义。在这些方法中,单词知识和推理被认为是不必要的。上下文被表示为单词的一组“特征”。它还包括有关周围单词的信息。支持向量机和基于内存的学习是WSD最成功的监督学习方法。这些方法依赖于大量的经过手动含义标记的语料库,创建这些语料库非常昂贵。
Applications of Word Sense Disambiguation (WSD)
单词含义消除歧义(WSD)几乎应用于语言技术的所有应用中。
现在让我们看看WSD的范围:
Machine Translation
机器翻译或MT是WSD最明显的应用。在MT中,WSD用于对具有不同含义的不同翻译的单词进行词汇选择。MT中的含义表示为目标语言中的单词。大多数机器翻译系统不使用显式WSD模块。
Information Retrieval (IR)
信息检索(IR)可以定义为一个软件程序,用于处理来自文档存储库中的信息(特别是文本信息)的组织、存储、检索和评估。该系统基本上协助用户查找所需的信息,但不会明确返回问题的答案。WSD用于解决提供给IR系统的查询的歧义。与MT一样,当前的IR系统并不明确地使用WSD模块,他们依赖于这样一个概念:用户将在查询中输入足够多的上下文,以便仅检索相关文档。