Data Mining 简明教程

Data Mining - Themes

Theoretical Foundations of Data Mining

数据挖掘的理论基础包括以下概念 −

  1. Data Reduction − 此理论的基本思想是减少数据表示,它为获得对大型数据库中查询的快速近似答案的需要带来了准确性以换取速度。一些数据缩减技术如下 − 奇异值分解 小波 回归 对数线性模型 直方图 聚类 采样 构造索引树

  2. Data Compression − 此理论的基本思想是通过以下方式对给定数据进行编码来压缩给定数据 − 位 关联规则 决策树 集群

  3. Pattern Discovery − 此理论的基本思想是在数据库中发现出现的模式。以下是对该理论有帮助的领域 − 机器学习 神经网络 关联挖掘 顺序模式匹配 聚类

  4. Probability Theory − 此理论基于统计理论。该理论背后的基本思想是发现随机变量的联合概率分布。

  5. Probability Theory − 根据该理论,数据挖掘仅会找到那些能够在某些企业的决策过程中使用的模式,并且具有有趣的特点。

  6. Microeconomic View − 根据该理论,数据库模式包含存储在数据库中的数据和模式。因此,数据挖掘就是在数据库中执行归纳的任务。

  7. Inductive databases − 除了面向数据库的技术之外,还可以使用统计技术进行数据分析。这些技术可以运用到科学数据、经济数据以及社会科学数据中。

Statistical Data Mining

以下是一些统计数据挖掘技术:

  1. Regression − 回归方法用于根据一个或多个预测变量(其中变量为数字)预测自变量的值。下面列出回归的形式: 线性 多重 加权 多项式 非参数 稳健

  2. Generalized Linear Models − 广义线性模型包括: 逻辑回归泊松回归该模型的推广允许对离散响应变量与一组预测变量相关,其方式类似于使用线性回归对数字响应变量建模的方式。

  3. Analysis of Variance − 此技术分析: 经由数字响应变量描述的两个或更多总体之间的实验数据。一个或多个离散变量(因子)。

  4. Mixed-effect Models − 这些模型用于分析分组数据。这些模型描述了响应变量与数据中某些协变量之间的关系,这些数据根据一个或多个因子分组。

  5. Factor Analysis − 因子分析用于预测离散响应变量。此方法假设自变量遵循多元正态分布。

  6. Time Series Analysis − 以下是用于分析时间序列数据的几种方法: 自回归方法。单变量 ARIMA(自回归综合移动平均值)建模。长记忆时间序列建模。

Visual Data Mining

可视化数据挖掘使用数据和/或知识可视化技术从大型数据集发现隐含知识。可视化数据挖掘可以看作以下学科的整合:

  1. Data Visualization

  2. Data Mining

可视化数据挖掘与以下内容密切相关:

  1. Computer Graphics

  2. Multimedia Systems

  3. Human Computer Interaction

  4. Pattern Recognition

  5. High-performance Computing

通常,数据可视化和数据挖掘可以通过以下方式整合:

  1. Data Visualization − 数据库或数据仓库中的数据可以用以下几种可视形式查看: 箱线图 3D 立方体 数据分布图 曲线曲面 链接图等。

  2. Data Mining Result Visualization − 数据挖掘结果可视化是以可视形式呈现数据挖掘结果。这些可视形式可能是散点图、箱线图等。

  3. Data Mining Process Visualization − 数据挖掘过程可视化展示了数据挖掘的几个过程。它能让用户了解如何提取数据。它还允许用户查看数据从哪个数据库或数据仓库中进行清理、整合、预处理和挖掘。

Audio Data Mining

音频数据挖掘利用音频信号来指示数据模式或数据挖掘结果的特征。通过将模式转换成声音并进行沉思,我们可以聆听音调和曲调(而不是观看图像)来识别任何有趣的内容。

Data Mining and Collaborative Filtering

如今,消费者在购物时会遇到各种各样的商品和服务。在实时客户交易中,推荐系统会向消费者提供产品推荐,从而帮助消费者。协同过滤方法通常用于向消费者推荐产品。这些推荐基于其他消费者的意见。