Natural Language Processing 简明教程

Natural Language Discourse Processing

人工智能最困难的问题是用计算机处理自然语言,或者换句话说,自然语言处理是人工智能中最困难的问题。如果我们讨论 NLP 中的主要问题,那么 NLP 中的一个主要问题就是话语处理 − 建立关于话语如何粘在一起形成 coherent discourse 的理论和模型。事实上,语言总是包含搭配、结构化和连贯的句子组,而不是像电影那样的孤立且不相关的句子。这些连贯的句子组称为话语。

Concept of Coherence

连贯性和话语结构在许多方面是相互关联的。连贯性与好文本的属性一起,用于评估自然语言生成系统的输出质量。这里出现的问题是文本连贯意味着什么?假设我们从报纸的每一页收集一句话,那它会是话语吗?当然不是。这是因为这些句子没有表现出连贯性。连贯的话语必须具备以下特性 −

Coherence relation between utterances

如果话语在其话语之间有有意义的联系,那么它将是连贯的。此属性称为连贯关系。例如,必须有一些解释来证明话语之间的联系。

Relationship between entities

使话语连贯的另一个属性是实体之间必须存在某种关系。这种连贯性称为基于实体的连贯性。

Discourse structure

关于话语的一个重要问题是话语必须具有什么样的结构。这个问题的答案取决于我们应用于话语的分割。话语分割可以定义为确定大型话语的结构类型。实施话语分割非常困难,但对以下 information retrieval, text summarization and information extraction 类型的应用程序非常重要。

Algorithms for Discourse Segmentation

在本节中,我们将学习话语分割的算法。算法如下所述 −

Unsupervised Discourse Segmentation

无监督话语分割的类别通常表现为线性分割。我们可以借助一个示例了解线性分割的任务。在该示例中,有一个任务是将文本分割为多段落单位;这些单位代表着原始文本的段落。这些算法依赖于内聚力,内聚力可以定义为使用特定的语言设备将文本单位联系在一起。另一方面,词汇内聚力是两 (2) 个单位中两个 (2) 个或更多单词之间的关系指示的内聚力,例如使用同义词。

Supervised Discourse Segmentation

较早的方法没有任何手工标记的分割边界。另一方面,监督话语分割需要有边界标记的训练数据。获取该数据非常容易。在监督话语分割中,话语标记或提示词起着重要的作用。话语标记或提示词是表示话语结构的单词或短语。这些话语标记是特定于领域的。

Text Coherence

词汇重复是找出话语结构的一种方法,但它不满足连贯话语的要求。为了实现连贯话语,我们必须特别关注连贯关系。正如我们所知,连贯关系定义了话语中言语之间的可能联系。赫布提出了以下此种关系 −

我们采用两个术语 S0S1 来表示两个 (2) 个相关句子的含义 −

Result

它推断出术语 S0 断言的状态可能导致术语 S1 断言的状态。例如,两个 (2) 个表述表明关系结果:拉姆被困在火中。他的皮肤被烧伤了。

Explanation

它推断出术语 S1 断言的状态可能导致术语 S0 断言的状态。例如,两个 (2) 个表述表明关系 − 拉姆与夏姆的朋友打架。他喝醉了。

Parallel

它根据断言 S0 推断出 p(a1,a2,…) 并根据断言 S1 推断出 p(b1,b2,…)。此处所有 i 的 ai 和 bi 相似。例如,两个 (2) 个表述是平行的 − 拉姆想要汽车。夏姆想要钱。

Elaboration

两种 (2) 断言 S0S1 推断出相同的命题 P。例如,两个 (2) 个表述表明关系详细说明:拉姆来自昌迪加尔。夏姆来自喀拉拉邦。

Occasion

当可以从断言 S0 推断出状态更改,可以从 S1 推断出其最终状态,反之亦然时,就会发生这种情况。例如,两个 (2) 个表述表明关系场:拉姆拿起书。他把它给了夏姆。

Building Hierarchical Discourse Structure

还可以通过连贯关系之间的层次结构考虑整个话语的连贯性。例如,以下段落可以表示为层次结构 −

  1. S1 − 拉姆去银行存钱。

  2. S2 − 然后他乘火车去了夏姆的布店。

  3. S3 − 他想买些衣服。

  4. S4 − 他没有新衣服参加派对。

  5. S5 − 他还想和夏姆谈谈他的健康状况。

building hierarchical discourse structure

Reference Resolution

对任何话语中的句子进行解释是另一项重要任务,为了实现此项任务,我们需要知道讨论的是谁或什么实体。此处,解释参考是关键要素。 Reference 可以定义为表示实体或个体的语言表达。例如,在段落中,ABC 银行经理拉姆在一家商店见到了他的朋友夏姆。他去见他,拉姆、他的、他等语言表达是参考。

同样, reference resolution 可以定义为确定哪些语言表达指代哪些实体的任务。

Terminology Used in Reference Resolution

我们在引用消解中使用以下术语 −

  1. Referring expression − 用于执行引用的自然语言表达称为引用表达。例如,上面使用的段落是引用表达。

  2. Referent − 它是被指的实体。例如,在上一个给出的示例中,Ram 是一个指称对象。

  3. Corefer − 当两个表达式用来指称同一个实体时,它们被称为共指。例如, Ramhe 是共指。

  4. Antecedent − 该术语具有使用另一个术语的许可。例如, Ram 是引用 he 的先行词。

  5. Anaphora & Anaphoric − 可能将其定义为对句中先前引入过的实体的引用。并且,引用表达式被称为指代性。

  6. Discourse model − 包含了话语中被引用的实体的表示以及它们之间的关系的模型。

Types of Referring Expressions

现在让我们看一看不同类型的指称表达式。下面描述了五种类型的指称表达式 −

Indefinite Noun Phrases

这种引用表示对听众来说在话语上下文中是新的实体。例如 − 在句子“Ram 有一天四处走动给他带了一些食物”中 − some 是一种不确定的引用。

Definite Noun Phrases

与上述相反,这种引用表示对听众来说在话语上下文中并不新或不可识别的实体。例如,在句子“我过去常读《印度时报》”中 − 《印度时报》是一个明确的引用。

Pronouns

这是一种明确的引用。例如,Ram 尽可能大声地笑了。单词 he 表示代词指称表达式。

Demonstratives

它们与简单的明确代词不同,并且表现不同。例如,this 和 that 是指示代词。

Names

它是最简单的指称表达式类型。它还可以是个人、组织和地点的名称。例如,在上面的示例中,Ram 是人名指称表达式。

Reference Resolution Tasks

下面描述了这两个引用解析任务。

Coreference Resolution

这是在文本中查找引用同一实体的指称表达式的任务。用简单的话说,这是找到共指表达式的任务。一组共指表达式被称为共指链。例如 - 他、首席经理和他的 - 这些是作为示例给出的第一段中的指称表达式。

Constraint on Coreference Resolution

在英语中,共指解析的主要问题是代词 it。其背后的原因是代词 it 有很多用法。例如,它可以像 he 和 she 一样指代。代词 it 还指代不指特定事物的物体。例如,下雨了。真的很棒。

Pronominal Anaphora Resolution

不同于共指解析,代词指代解析可能被定义为查找代词先行词的任务。例如,代词是他的,代词指代解析的任务是找到单词 Ram,因为 Ram 是先行词。