Data Mining 简明教程

Data Mining - Mining Text Data

文本数据库包含大量的文档集合。它们从多种来源收集这些信息,例如新闻文章、书籍、数字图书馆、电子邮件、网页等。由于信息量的增加,文本数据库正在迅速增长。在许多文本数据库中,数据是半结构化的。

例如,一个文档可能包含一些结构化字段,例如标题、作者、出版日期等。但除了结构数据之外,文档还包含非结构化文本组件,例如摘要和内容。在不知道文档中可能包含什么的情况下,很难制定有效的查询来分析和提取数据中有用的信息。用户需要工具来比较文档并对其重要性和相关性进行排名。因此,文本挖掘已变得流行,并成为数据挖掘中的一个基本主题。

Information Retrieval

信息检索涉及从大量文本文档中检索信息。一些数据库系统通常不存在于信息检索系统中,因为两者处理不同类型的数据。信息检索系统示例包括 −

  1. Online Library catalogue system

  2. Online Document Management Systems

  3. Web Search Systems etc.

Note − 信息检索系统的主要问题是根据用户的查询在文档集合中定位相关文档。这种类型的用户查询由一些描述信息需求的关键词组成。

在这种搜索问题中,用户主动从集合中提取相关信息。当用户临时需要信息时,即短期需要时,这种方法比较合适。但是,如果用户长期需要信息,那么检索系统还可以主动将新到达的信息项目推送到用户。

这种访问信息的方式称为信息过滤。相应的系统称为过滤系统或推荐系统。

Basic Measures for Text Retrieval

当系统根据用户的输入检索大量文档时,我们需要检查系统的准确性。将与查询相关的文档集表示为 {Relevant},而将检索到的文档集表示为 {Retrieved}。既相关又检索到的文档集可以表示为 {Relevant} ∩ {Retrieved}。这可以通过以下韦恩图的形式展示 −

dm measures

评估文本检索质量有三个基本度量 −

  1. Precision

  2. Recall

  3. F-score

Precision

准确率是检索到的文档中实际上与查询相关的文档的百分比。准确率可以定义为 −

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

Recall

召回率是与查询相关且实际上已检索到的文档的百分比。召回率定义为 −

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F-score

F 分数是常用的折衷方案。信息检索系统通常需要在准确度和召回率之间折衷。F 分数定义为召回率或准确率的调和平均值,如下所示 −

F-score = recall x precision / (recall + precision) / 2