Data Mining 简明教程
Data Mining - Themes
Theoretical Foundations of Data Mining
数据挖掘的理论基础包括以下概念 −
-
Data Reduction − 此理论的基本思想是减少数据表示,它为获得对大型数据库中查询的快速近似答案的需要带来了准确性以换取速度。一些数据缩减技术如下 − 奇异值分解 小波 回归 对数线性模型 直方图 聚类 采样 构造索引树
-
Data Compression − 此理论的基本思想是通过以下方式对给定数据进行编码来压缩给定数据 − 位 关联规则 决策树 集群
-
Pattern Discovery − 此理论的基本思想是在数据库中发现出现的模式。以下是对该理论有帮助的领域 − 机器学习 神经网络 关联挖掘 顺序模式匹配 聚类
-
Probability Theory − 此理论基于统计理论。该理论背后的基本思想是发现随机变量的联合概率分布。
-
Probability Theory − 根据该理论,数据挖掘仅会找到那些能够在某些企业的决策过程中使用的模式,并且具有有趣的特点。
-
Microeconomic View − 根据该理论,数据库模式包含存储在数据库中的数据和模式。因此,数据挖掘就是在数据库中执行归纳的任务。
-
Inductive databases − 除了面向数据库的技术之外,还可以使用统计技术进行数据分析。这些技术可以运用到科学数据、经济数据以及社会科学数据中。
Statistical Data Mining
以下是一些统计数据挖掘技术:
-
Regression − 回归方法用于根据一个或多个预测变量(其中变量为数字)预测自变量的值。下面列出回归的形式: 线性 多重 加权 多项式 非参数 稳健
-
Generalized Linear Models − 广义线性模型包括: 逻辑回归泊松回归该模型的推广允许对离散响应变量与一组预测变量相关,其方式类似于使用线性回归对数字响应变量建模的方式。
-
Analysis of Variance − 此技术分析: 经由数字响应变量描述的两个或更多总体之间的实验数据。一个或多个离散变量(因子)。
-
Mixed-effect Models − 这些模型用于分析分组数据。这些模型描述了响应变量与数据中某些协变量之间的关系,这些数据根据一个或多个因子分组。
-
Factor Analysis − 因子分析用于预测离散响应变量。此方法假设自变量遵循多元正态分布。
-
Time Series Analysis − 以下是用于分析时间序列数据的几种方法: 自回归方法。单变量 ARIMA(自回归综合移动平均值)建模。长记忆时间序列建模。
Visual Data Mining
可视化数据挖掘使用数据和/或知识可视化技术从大型数据集发现隐含知识。可视化数据挖掘可以看作以下学科的整合:
-
Data Visualization
-
Data Mining
可视化数据挖掘与以下内容密切相关:
-
Computer Graphics
-
Multimedia Systems
-
Human Computer Interaction
-
Pattern Recognition
-
High-performance Computing
通常,数据可视化和数据挖掘可以通过以下方式整合:
-
Data Visualization − 数据库或数据仓库中的数据可以用以下几种可视形式查看: 箱线图 3D 立方体 数据分布图 曲线曲面 链接图等。
-
Data Mining Result Visualization − 数据挖掘结果可视化是以可视形式呈现数据挖掘结果。这些可视形式可能是散点图、箱线图等。
-
Data Mining Process Visualization − 数据挖掘过程可视化展示了数据挖掘的几个过程。它能让用户了解如何提取数据。它还允许用户查看数据从哪个数据库或数据仓库中进行清理、整合、预处理和挖掘。