Data Mining 简明教程

Data Mining - Issues

数据挖掘不是一项简单的任务,因为所使用的算法可能非常复杂,而且数据并不总是在一个地方可用。它需要从各种异构数据源进行集成。这些因素还产生了一些问题。在本教程中,我们将讨论有关主要问题 −

  1. 挖掘方法和用户交互

  2. Performance Issues

  3. Diverse Data Types Issues

下图描述了主要问题。

dm issues

Mining Methodology and User Interaction Issues

它涉及以下类别的问题 −

  1. Mining different kinds of knowledge in databases − 不同的用户可能对不同种类的知识感兴趣。因此,数据挖掘必须涵盖广泛的知识发现任务。

  2. Interactive mining of knowledge at multiple levels of abstraction − 数据挖掘过程需要是交互式的,因为它允许用户重点关注模式搜索,并基于返回结果提供和优化数据挖掘请求。

  3. Incorporation of background knowledge − 背景知识可用于指导发现过程并表达发现的模式。背景知识可用于不仅以简洁的术语表达发现的模式,而且以多个抽象级别表达。

  4. * Data mining query languages and ad hoc data mining* - 数据挖掘查询语言允许用户描述临时挖掘任务,应与数据仓库查询语言集成并针对高效灵活的数据挖掘进行优化。

  5. Presentation and visualization of data mining results − 一旦模式被发现,就需要用高级语言和可视化表示来表达。这些表示应该易于理解。

  6. Handling noisy or incomplete data − 在挖掘数据规律时,需要使用数据清洗方法来处理噪声和不完整对象。如果数据清洗方法不存在,那么发现的模式的准确性将较差。

  7. Pattern evaluation − 发现的模式应该是有趣的,因为它们要么代表了常识,要么缺乏新颖性。

Performance Issues

可能存在以下性能相关问题 −

  1. Efficiency and scalability of data mining algorithms − 为了有效地从数据库中的大量数据中提取信息,数据挖掘算法必须是高效且可扩展的。

  2. Parallel, distributed, and incremental mining algorithms − 数据库规模巨大、数据分布广泛以及数据挖掘方法复杂等因素促进了并行和分布式数据挖掘算法的开发。这些算法将数据划分为分区,然后以并行方式进一步处理。然后合并分区中的结果。增量算法在无需从头开始挖掘数据的情况下更新数据库。

Diverse Data Types Issues

  1. Handling of relational and complex types of data − 数据库可能包含复杂的数据对象、多媒体数据对象、空间数据、时间数据等。一个系统无法挖掘所有这些类型的数据。

  2. Mining information from heterogeneous databases and global information systems − 数据可用于 LAN 或 WAN 上的不同数据源。这些数据源可能是结构化的、半结构化的或非结构化的。因此,从数据源挖掘知识给数据挖掘增添了挑战。