Data Mining 简明教程
Data Mining - Issues
数据挖掘不是一项简单的任务,因为所使用的算法可能非常复杂,而且数据并不总是在一个地方可用。它需要从各种异构数据源进行集成。这些因素还产生了一些问题。在本教程中,我们将讨论有关主要问题 −
-
挖掘方法和用户交互
-
Performance Issues
-
Diverse Data Types Issues
下图描述了主要问题。
Mining Methodology and User Interaction Issues
它涉及以下类别的问题 −
-
Mining different kinds of knowledge in databases − 不同的用户可能对不同种类的知识感兴趣。因此,数据挖掘必须涵盖广泛的知识发现任务。
-
Interactive mining of knowledge at multiple levels of abstraction − 数据挖掘过程需要是交互式的,因为它允许用户重点关注模式搜索,并基于返回结果提供和优化数据挖掘请求。
-
Incorporation of background knowledge − 背景知识可用于指导发现过程并表达发现的模式。背景知识可用于不仅以简洁的术语表达发现的模式,而且以多个抽象级别表达。
-
* Data mining query languages and ad hoc data mining* - 数据挖掘查询语言允许用户描述临时挖掘任务,应与数据仓库查询语言集成并针对高效灵活的数据挖掘进行优化。
-
Presentation and visualization of data mining results − 一旦模式被发现,就需要用高级语言和可视化表示来表达。这些表示应该易于理解。
-
Handling noisy or incomplete data − 在挖掘数据规律时,需要使用数据清洗方法来处理噪声和不完整对象。如果数据清洗方法不存在,那么发现的模式的准确性将较差。
-
Pattern evaluation − 发现的模式应该是有趣的,因为它们要么代表了常识,要么缺乏新颖性。