Data Mining 简明教程
Data Mining - Mining Text Data
文本数据库包含大量的文档集合。它们从多种来源收集这些信息,例如新闻文章、书籍、数字图书馆、电子邮件、网页等。由于信息量的增加,文本数据库正在迅速增长。在许多文本数据库中,数据是半结构化的。
例如,一个文档可能包含一些结构化字段,例如标题、作者、出版日期等。但除了结构数据之外,文档还包含非结构化文本组件,例如摘要和内容。在不知道文档中可能包含什么的情况下,很难制定有效的查询来分析和提取数据中有用的信息。用户需要工具来比较文档并对其重要性和相关性进行排名。因此,文本挖掘已变得流行,并成为数据挖掘中的一个基本主题。
Information Retrieval
信息检索涉及从大量文本文档中检索信息。一些数据库系统通常不存在于信息检索系统中,因为两者处理不同类型的数据。信息检索系统示例包括 −
-
Online Library catalogue system
-
Online Document Management Systems
-
Web Search Systems etc.
Note − 信息检索系统的主要问题是根据用户的查询在文档集合中定位相关文档。这种类型的用户查询由一些描述信息需求的关键词组成。
在这种搜索问题中,用户主动从集合中提取相关信息。当用户临时需要信息时,即短期需要时,这种方法比较合适。但是,如果用户长期需要信息,那么检索系统还可以主动将新到达的信息项目推送到用户。
这种访问信息的方式称为信息过滤。相应的系统称为过滤系统或推荐系统。
Basic Measures for Text Retrieval
当系统根据用户的输入检索大量文档时,我们需要检查系统的准确性。将与查询相关的文档集表示为 {Relevant},而将检索到的文档集表示为 {Retrieved}。既相关又检索到的文档集可以表示为 {Relevant} ∩ {Retrieved}。这可以通过以下韦恩图的形式展示 −
评估文本检索质量有三个基本度量 −
-
Precision
-
Recall
-
F-score