Natural Language Processing 简明教程

Natural Language Processing - Inception

在本章中,我们将讨论自然语言处理中的自然语言始源。首先,让我们了解什么是自然语言语法。

Natural Language Grammar

对语言学来说,语言就是一组任意的声乐标志。我们可以说语言是有创造性的、受规则制约的、与生俱来的,同时又是普遍的。另一方面,它也是人性的。语言的性质因人而异。对语言的性质有很多误解。这就是理解模棱两可的术语 ‘grammar’ 的含义非常重要的原因。在语言学中,语法术语可以定义为语言运行所依据的规则或原理。广义上来说,我们可以将语法分为两类−

Descriptive Grammar

由语言学家和语法学家制定说话者语法的那套规则称为描述性语法。

Perspective Grammar

这是一种截然不同的语法概念,它试图维持语言的正确性标准。这一类与语言的实际运作关系不大。

Components of Language

研究语言时将其划分为相互关联的成分,这些成分是语言调查中约定俗成的、任意的划分。对这些成分的解释如下−

Phonology

语言的第一个成分是音系学。它是对某一特定语言的语音进行的研究。这个词的起源可以追溯到希腊语,其中“phone”意为声音或语音。语音学是音系学的一个分支,它从语音的产生、感知或物理属性的角度研究人类语言的语音。国际音标 (IPA) 是一种在语音学研究中以规则的方式表示人声的工具。在国际音标中,每个书面符号只表示一个语音,反之亦然。

Phonemes

它可以被定义为语音单位之一,它将一个语言中的单词与另一个单词区分开来。在语言学中,音位用斜杠书写。例如,音位 /k/ 出现于 kit、skit 这样的单词中。

Morphology

这是语言的第二个部分。它是对某一特定语言中单词的结构和分类的研究。这个词的起源来自希腊语,其中“morphe”一词意为“形式”。形态学考虑语言中词语形成的原理。换句话说,声音如何组合成有意义的单位,如前缀、后缀和词根。它还考虑了如何将单词归类为词性。

Lexeme

在语言学中,与某个单词所采用的形式集合相对应的形态分析抽象单位被称为词素。词素在句子中的用法由其语法范畴决定。词素可以是单个单词,也可以是多单词。例如,单词 talk 是单个词素的例子,它可能具有很多语法变体,如 talks、talked 和 talking。多词素可以由多个正字法词语组成。例如,speak up、pull through 等都是多词素的例子。

Syntax

这是语言的第三个部分。它是对单词按序排列以及组合成更大单位的研究。这个单词可以追溯到希腊语,其中单词 suntassein 的意思是“按序排列”。它研究句子的类型及其结构、从句、短语。

Semantics

这是语言的第四个部分。它是对意义如何传达的研究。意义可以与外部世界相关,也可以与句子的语法相关。这个单词可以追溯到希腊语,其中单词 semainein 的意思是“表示”、“展示”、“信号”。

Pragmatics

这是语言的第五个部分。它是对语言功能及其在语境中的使用进行的研究。这个词的起源可以追溯到希腊语,其中单词“pragma” 的意思是“行为”、“事务”。

Grammatical Categories

语法范畴可以定义为语言语法内单元或特征的一类。这些单元是语言的组成部分,并具有共同的特征集合。语法范畴也称为语法特征。

语法范畴的清单如下所述−

Number

这是最简单的语法范畴。我们有与这一范畴相关的两个术语——单数和复数。单数是“一个”的概念,而复数是“多个”的概念。例如,dog/dogs,this/these。

Gender

语法性通过人称代词和第三人称的变异来表达。语法性的例子有:单数——he、she、it;第一人称和第二人称形式——I、we 和 you;第三人称复数形式 they 是普通性或中性。

Person

另一个简单的语法范畴是人称。在此之下,识别出以下三个术语−

  1. 1st person − 说出话的人称为第一人称。

  2. 2nd person − 说话人或被说话的人称为第二人称。

  3. 3rd person − 我们正在议论的人或事物称为第三人称。

Case

它是语法中最难的范畴之一。它可以被定义为名词短语 (NP) 功能的指示,或名词短语与句子中的动词或其他名词短语之间的关系。我们有以下三个在人称和疑问代词中表达的格:

  1. Nominative case − 它是主语功能。例如,“我、我们、你、他、她、它、他们”和“谁”是主格。

  2. Genitive case − 它是所有格功能。例如,“我的/我的、我们的/我们的、他的、她的/她的、它的、他们的/他们的、谁的”是所有格。

  3. Objective case − 它是宾语功能。例如,“我、我们、你、他、她、他们、谁”是宾格。

Degree

这个语法范畴与形容词和副词有关。它有以下三个术语:

  1. Positive degree − 它表示一种品质。例如,“大、快、美”是比较级。

  2. Comparative degree − 它表示两个项目中其中一个项目的更大程度或程度。例如,“更大、更快、更美”是比较级。

  3. Superlative degree − 它表示三个或更多个项目中其中一个项目的最高程度或程度。例如,“最大、最快、最美”是最高级。

Definiteness and Indefiniteness

这两个概念都非常简单。正如我们所知,确定性表示一个指称者,该指称者是说话者或听众所知道、熟悉或可识别的。相反,不确定性表示一个不为人所知或不熟悉的指称者。这个概念可以在冠词与名词的共现中理解:

  1. definite article − the

  2. indefinite article − a/an

Tense

这个语法范畴与动词有关,可以定义为动作时间语言指示。现在时建立了一种关系,因为它表示事件发生的时间与说话时刻的关系。从广义上讲,它有以下三种类型:

  1. Present tense − 表示动作发生在现在。例如,“Ram 努力工作”。

  2. Past tense − 表示动作发生在现在之前。例如,“下雨了”。

  3. Future tense − 表示动作发生在现在之后。例如,“它将下雨”。

Aspect

这个语法范畴可以定义为对事件的看法。它可以有以下类型:

  1. Perfective aspect − 该视图被视为一个完整且完整的方面。例如,英语中的简单过去时 yesterday I met my friend, 在语态上是完成时的,因为它将事件视为完整且完整的。

  2. Imperfective aspect − 该视图被视为正在进行且不完整的方面。例如,英语中表示现在进行时的 present participle 时态 I am working on this problem, 在语态上是不完成时态的,因为它将事件视为不完整和正在进行的。

Mood

这个语法范畴有点难以定义,但它可以简单地表示为说话者对他/她谈论内容的态度的迹象。它也是动词的语法特征。它不同于语法时态和语法语态。语态的例子是陈述语态、疑问语态、祈使语态、禁止语态、虚拟语态、可能语态、祈愿语态、现在分词和过去分词。

Agreement

它也被称为一致。当一个词从依赖于它所关联的其他词中发生改变时,就会发生这种情况。换句话说,它涉及使不同单词或词性之间的某些语法范畴的值达成一致。以下是基于其他语法范畴的一致性:

  1. Agreement based on Person − 它是主语和动词之间的协调。例如,我们总是使用“I am”和“He is”,但从不使用“He am”和“I is”。

  2. Agreement based on Number − 这是主语和谓语之间的一致性。在这种情况下,第一人称单数、第二人称复数等都有特定的谓语形式。例如,第一人称单数:I really am,第二人称复数:We really are,第三人称单数:The boy sings,第三人称复数:The boys sing。

  3. Agreement based on Gender − 在英语中,代词和它的先行词在性别上是一致的。例如,He reached his destination. The ship reached her destination.

  4. Agreement based on Case − 这种一致性不是英语的一个重要特征。例如,who came first − he or his sister?

Spoken Language Syntax

书面英语和口语语法有很多共同特征,但除此之外,它们在许多方面也有所不同。以下特征区分了口语和书面英语语法:

Disfluencies and Repair

这个引人注目的特征使得口语和书面英语语法彼此不同。它分别称为不流畅现象,统称为修复现象。不流畅包括以下用法:

  1. Fillers words −有时在句子中间,我们使用一些填充词。它们被称为填充停顿词。例如有“uh”和“um”。

  2. Reparandum and repair −句子中重复的词段称为待修复词。在相同的语段中,已更改的单词称为修复。考虑以下示例以理解这一个点:

Does ABC airlines offer any one-way flights uh one-way fares for 5000 rupees?

在上述句子中,单程航班是待修复词,单程航班是修复词。

Restarts

在填充停顿后,会出现重新开始。例如,在上述句子中,当说话者开始询问单程航班然后停止,用填充停顿更正自己,然后重新开始询问单程票价时,就会重新开始。

Word Fragments

有时我们会用较小的单词片段来说话。例如, wwha-what is the time? 这里是 w-wha 单词片段。