Natural Language Processing 简明教程
NLP - Linguistic Resources
在本章中,我们将了解自然语言处理中的语言资源。
Elements of Corpus Design
语言是无限的,但语料库必须是有限的。为了使语料库大小有限,我们需要对广泛的文本类型进行抽样和按比例包含,以确保良好的语料库设计。
现在让我们了解语料库设计的一些重要元素−
Corpus Representativeness
代表性是语料库设计的一个决定性特征。两位伟大研究人员——Leech 和 Biber 的以下定义将帮助我们理解语料库代表性−
-
According to Leech (1991), “语料库被认为代表了它应该代表的语言变体,如果基于其内容的调查结果可以推广到所述语言变体”。
-
According to Biber (1993), “代表性是指样本包含总体中完整变异范围的程度”。
通过这种方式,我们可以得出结论,语料库的代表性由以下两个因素决定:
-
Balance − 语料库中包含的体裁范围
-
Sampling − 如何选择每个体裁的段落。
Corpus Balance
语料库设计的另一个非常重要的元素是语料库平衡——语料库中包含的体裁范围。我们已经研究过,一般语料库的代表性取决于语料库平衡度如何。平衡的语料库涵盖广泛的文本类别,这些类别被认为是语言的代表。我们没有可靠的科学方法来衡量平衡度,但最好的估计和直觉在这方面起作用。换句话说,我们可以说,可接受的平衡度仅由其预期用途决定。
Sampling
语料库设计的另一个重要元素是抽样。语料库代表性和平衡性与抽样密切相关。这就是为什么我们可以说抽样在语料库构建中是不可避免的。
-
根据 Biber(1993) ,“在构建语料库时,首先要考虑的是总体设计:例如,包含的文本类型、文本数量、特定文本的选择、文本内部文本样本的选择以及文本样本的长度。这些每一个都涉及抽样决策,无论是有意识的还是无意识的。”
在获取代表性样本时,我们需要考虑以下内容:
-
Sampling unit − 它指的是需要样本的单位。例如,对于书面文本,抽样单位可能是报纸、期刊或书籍。
-
Sampling frame − 所有抽样单位的列表称为抽样框。
-
Population − 可以将其称为所有抽样单位的集合。它是根据语言生产、语言接受或作为产品的语言定义的。
Corpus Size
语料库设计的另一个重要元素是它的规模。语料库应该多大?这个问题没有具体答案。语料库的规模取决于其预期用途以及以下一些实际考虑因素:
-
用户预期的查询类型。
-
用户研究数据的 methodology。
-
数据源的可用性。
随着技术的进步,语料库的规模也在增加。以下比较表将帮助您了解语料库规模的工作原理:
Year |
Name of the Corpus |
Size (in words) |
1960s - 70s |
Brown and LOB |
1 Million words |
1980s |
The Birmingham corpora |
20 Million words |
1990s |
The British National corpus |
100 Million words |
Early 21st century |
英语语料库 |
650 Million words |
在我们后面的章节中,我们将看一些语料库的示例。
TreeBank Corpus
它可以定义为对句法或语义句子结构进行注释的语言解析文本语料库。Geoffrey Leech创造了术语“树库”,它表示表示语法分析的最常用方法是通过树形结构。通常,树库是在语料库的基础上创建的,该语料库已经用词性标签进行了注释。
PropBank Corpus
PropBank 更具体地称为“命题库”,它是一个语料库,其中附注了动词命题及其参数。该语料库是以动词为导向的资源;此处的注释更紧密地与句法级别相关。Martha Palmer 及科罗拉多大学博尔德分校语言学系共同开发了它。我们可以使用术语 PropBank 作为普通名词,指代任何已用命题及其参数进行注释的语料库。
在自然语言处理 (NLP) 中,PropBank 项目发挥了非常重要的作用。它有助于语义角色标记。