Data Mining 简明教程

Data Mining - Bayesian Classification

贝叶斯分类基于贝叶斯定理。贝叶斯分类器是统计分类器。贝叶斯分类器可以预测类成员身份概率,例如给定元组属于特定类的概率。

Baye’s Theorem

贝叶斯定理是以托马斯·贝叶斯命名的。有两种类型的概率 -

  1. Posterior Probability [P(H/X)]

  2. Prior Probability [P(H)]

其中 X 是数据元组,H 是一些假设。

根据贝叶斯定理,

Bayesian Belief Network

贝叶斯信念网络指定了联合条件概率分布。它们也被称为信念网络、贝叶斯网络或概率网络。

  1. 信念网络允许在变量子集之间定义类条件独立性。

  2. 它提供了一个因果关系的图形模型,可以在其上进行学习。

  3. 我们可以使用训练后的贝叶斯网络进行分类。

定义贝叶斯推理网络的两个组件为:

  1. Directed acyclic graph

  2. 一组条件概率表

Directed Acyclic Graph

  1. 有向无环图中的每个节点表示随机变量。

  2. 这些变量可以是离散值或连续值。

  3. 这些变量可以对应给数据中给出的实际属性。

Directed Acyclic Graph Representation

下图给出了六个布尔变量的有向无环图。

dm acyclic graph

图中的弧表示因果关系。例如,肺癌受个人的家族肺癌史和是否为吸烟者的影响。值得注意的是,已知患者患有肺癌,则变量 PositiveXray 与患者是否有家族肺癌史或是否为吸烟者无关。

Conditional Probability Table

变量 LungCancer (LC) 的条件概率表显示了其父节点 FamilyHistory (FH) 和 Smoker (S) 的值的每种可能组合,如下所示:

dm probability table