Natural Language Processing 简明教程

NLP - Linguistic Resources

在本章中,我们将了解自然语言处理中的语言资源。

Corpus

语料库是在自然交流环境中生成的大型结构化机器可读文本集。它的复数形式是语料库。它们可以通过不同的方式派生,例如原本是电子的文本、口语转录和光学字符识别等。

Elements of Corpus Design

语言是无限的,但语料库必须是有限的。为了使语料库大小有限,我们需要对广泛的文本类型进行抽样和按比例包含,以确保良好的语料库设计。

现在让我们了解语料库设计的一些重要元素−

Corpus Representativeness

代表性是语料库设计的一个决定性特征。两位伟大研究人员——Leech 和 Biber 的以下定义将帮助我们理解语料库代表性−

  1. According to Leech (1991), “语料库被认为代表了它应该代表的语言变体,如果基于其内容的调查结果可以推广到所述语言变体”。

  2. According to Biber (1993), “代表性是指样本包含总体中完整变异范围的程度”。

通过这种方式,我们可以得出结论,语料库的代表性由以下两个因素决定:

  1. Balance − 语料库中包含的体裁范围

  2. Sampling − 如何选择每个体裁的段落。

Corpus Balance

语料库设计的另一个非常重要的元素是语料库平衡——语料库中包含的体裁范围。我们已经研究过,一般语料库的代表性取决于语料库平衡度如何。平衡的语料库涵盖广泛的文本类别,这些类别被认为是语言的代表。我们没有可靠的科学方法来衡量平衡度,但最好的估计和直觉在这方面起作用。换句话说,我们可以说,可接受的平衡度仅由其预期用途决定。

Sampling

语料库设计的另一个重要元素是抽样。语料库代表性和平衡性与抽样密切相关。这就是为什么我们可以说抽样在语料库构建中是不可避免的。

  1. 根据 Biber(1993) ,“在构建语料库时,首先要考虑的是总体设计:例如,包含的文本类型、文本数量、特定文本的选择、文本内部文本样本的选择以及文本样本的长度。这些每一个都涉及抽样决策,无论是有意识的还是无意识的。”

在获取代表性样本时,我们需要考虑以下内容:

  1. Sampling unit − 它指的是需要样本的单位。例如,对于书面文本,抽样单位可能是报纸、期刊或书籍。

  2. Sampling frame − 所有抽样单位的列表称为抽样框。

  3. Population − 可以将其称为所有抽样单位的集合。它是根据语言生产、语言接受或作为产品的语言定义的。

Corpus Size

语料库设计的另一个重要元素是它的规模。语料库应该多大?这个问题没有具体答案。语料库的规模取决于其预期用途以及以下一些实际考虑因素:

  1. 用户预期的查询类型。

  2. 用户研究数据的 methodology。

  3. 数据源的可用性。

随着技术的进步,语料库的规模也在增加。以下比较表将帮助您了解语料库规模的工作原理:

Year

Name of the Corpus

Size (in words)

1960s - 70s

Brown and LOB

1 Million words

1980s

The Birmingham corpora

20 Million words

1990s

The British National corpus

100 Million words

Early 21st century

英语语料库

650 Million words

在我们后面的章节中,我们将看一些语料库的示例。

TreeBank Corpus

它可以定义为对句法或语义句子结构进行注释的语言解析文本语料库。Geoffrey Leech创造了术语“树库”,它表示表示语法分析的最常用方法是通过树形结构。通常,树库是在语料库的基础上创建的,该语料库已经用词性标签进行了注释。

Types of TreeBank Corpus

语义树库和句法树库是语言学中最常见的两类树库。让我们现在详细了解这些类型:

Semantic Treebanks

这些树库使用句子语义结构的形式化表示。它们在语义表示深度方面各不相同。机器人指令树库、地理查询、格罗宁根意义库、RoboCup 语料库是一些语义树库示例。

Syntactic Treebanks

与语义树库相反,句法树库系统的输入是从句法分析树库数据转换中获得的形式语言表达式。此类系统的输出是基于谓词逻辑的意义表示。到目前为止,已经创建了各种不同语言的句法树库。例如, Penn Arabic Treebank, Columbia Arabic Treebank 是阿拉伯语创建的句法树库。 Sininca 是中文创建的句法树库。 Lucy, SusaneBLLIP WSJ 是英语创建的句法语料库。

Applications of TreeBank Corpus

以下是一些树库的应用:

In Computational Linguistics

如果谈到计算语言学,则树库的最佳用途是设计最先进的自然语言处理系统,例如词性标注器、解析器、语义分析器和机器翻译系统。

In Corpus Linguistics

在语料库语言学中,树库的最佳用途是研究句法现象。

In Theoretical Linguistics and Psycholinguistics

树库在理论和心理语言学中的最佳用途是交互证据。

PropBank Corpus

PropBank 更具体地称为“命题库”,它是一个语料库,其中附注了动词命题及其参数。该语料库是以动词为导向的资源;此处的注释更紧密地与句法级别相关。Martha Palmer 及科罗拉多大学博尔德分校语言学系共同开发了它。我们可以使用术语 PropBank 作为普通名词,指代任何已用命题及其参数进行注释的语料库。

在自然语言处理 (NLP) 中,PropBank 项目发挥了非常重要的作用。它有助于语义角色标记。

VerbNet(VN)

VerbNet(VN) 是英语中层次化的、与领域无关且最大的词法资源,它包含有关其内容的语义和句法信息。VN 是一个广泛覆盖的动词词库,它映射到其他词法资源,如 WordNet、Xtag 和 FrameNet。它被组织成动词类别,通过细化和添加子类别来扩展 Levin 类别,以便在类别成员之间实现句法和语义连贯性。

每个 VerbNet (VN) 类别包含:

A set of syntactic descriptions or syntactic frames

描述结构的可能表面实现,例如及物、不及物、介词短语、结果和大量的语态交替。

A set of semantic descriptions such as animate, human, organization

对参数允许的主题角色类型进行限制,并且可以施加进一步的限制。这将有助于指示可能与主题角色关联的成分的句法性质。

WordNet

WordNet 由普林斯顿创建,是英语语言的词汇数据库。它是 NLTK 语料库的一部分。在 WordNet 中,名词、动词、形容词和副词被分组到称为 Synsets 的认知同义词组中。所有同义词集都在概念语义和词汇关系的帮助下联系在一起。它的结构使其非常适合自然语言处理 (NLP)。

在信息系统中,WordNet 用于各种目的,例如消歧义、信息检索、自动文本分类和机器翻译。WordNet 最重要的用途之一是找出单词之间的相似性。对于此任务,已在各种包中实现了各种算法,例如 Perl 中的相似性、Python 中的 NLTK 和 Java 中的 ADW。