Data Mining 简明教程

Miscellaneous Classification Methods

此处我们将讨论其他分类方法,如遗传算法、粗糙集方法和模糊集方法。

Genetic Algorithms

遗传算法的思想源自自然进化。在遗传算法中,首先创建初始种群。这个初始种群由随机生成的规则组成。我们可以用一串位来表示每条规则。

例如,在给定的训练集中,样本由两个布尔属性描述,例如 A1 和 A2。而给定的训练集包含两个类,例如 C1 和 C2。

我们可以将规则 IF A1 AND NOT A2 THEN C2 编码为位串 100 。在此位表示中,最左边的两位分别代表属性 A1 和 A2。

同样,规则 IF NOT A1 AND NOT A2 THEN C1 可编码为 001

Note - 如果属性有 K 个值,其中 K>2,则我们可以使用 K 位对属性值进行编码。类也以相同的方式编码。

要点 -

  1. 基于最适者生存的概念,形成一个新群体,该群体由当前群体中最适应的规则以及这些规则的后代值组成。

  2. 通过在训练样本集上的分类准确度评估规则的适应性。

  3. 应用交叉和变异等遗传算子来创建后代。

  4. 在交叉中,成对规则的子字符串被交换以形成一对新规则。

  5. 在变异中,规则字符串中的随机选定位被反转。

Rough Set Approach

我们可以使用粗糙集方法来发现不精确和噪声数据中的结构关系。

Note - 此方法只能应用于离散值属性。因此,连续值属性必须在使用之前离散化。

粗糙集理论基于在给定的训练数据中建立等价类。形成等价类的元组是不可辨别的。这意味着样本相对于描述数据的属性是相同的。

在给定的真实世界数据中,有些类不能用可用属性来区分。我们可以使用粗糙集来 roughly 定义这样的类。

对于给定的类 C,粗糙集定义近似为以下两个集合 -

  1. Lower Approximation of C - C 的下近似包含所有数据元组,根据属性知识,这些元组肯定属于类 C。

  2. Upper Approximation of C - C 的上近似包含所有元组,根据属性知识,不能描述为不属于 C。

下图显示了类 C 的上近似和下近似 -

dm approximation

Fuzzy Set Approaches

模糊集理论也称为可能性理论。该理论是由 Lotfi Zadeh 在 1965 年提出的,作为 two-value logicprobability theory 的替代品。该理论允许我们在高层次的抽象中工作。它还为我们提供了处理数据不精确测量的方法。

模糊集理论还允许我们处理模糊或不确切的事实。例如,成为高收入人群的成员是不确切的(例如,如果 50,000 美元很高,那么 49,000 美元和 48,000 美元呢)。与传统的 CRISP 集不同,在传统的 CRISP 集中,元素要么属于 S 或其补集,但在模糊集理论中,元素可以属于多个模糊集。

例如,收入值 49,000 美元属于中等和高模糊集,但程度不同。该收入值的模糊集表示如下 -

mmedium_income($49k)=0.15 and mhigh_income($49k)=0.96

其中“m”是分别对 medium_income 和 high_income 的模糊集进行操作的隶属函数。该符号可以用图表表示如下 -

dm fuzzy approach