Data Mining 简明教程

Data Mining - Cluster Analysis

簇是属于同一类的对象组。换句话说,相似对象被归入一个簇中,而不相似对象被归入另一个簇中。

What is Clustering?

聚类是将一组抽象对象变成相似对象类的过程。

Points to Remember

  1. 一组数据对象可以被视为一组。

  2. 在进行聚类分析时,我们首先根据数据相似性将数据集合划分为组,然后为各组分配标签。

  3. 聚类比分类的主要优势是,它可以适应变化,并有助于明确区分不同组的有用特征。

Applications of Cluster Analysis

  1. 聚类分析广泛用于许多应用,例如市场研究、模式识别、数据分析和图像处理。

  2. 聚类还可以帮助营销人员发现客户群中的不同群体。他们还可以根据购买模式来描述他们的客户群。

  3. 在生物学领域,它可以用于推导植物和动物分类学,对具有相似功能的基因进行分类,并深入了解种群固有的结构。

  4. 聚类也有助于识别地球观测数据库中相似土地利用区域。它也有助于根据房屋类型、价值和地理位置识别城市中的房屋组。

  5. 聚类还有助于对网络上的文档进行分类以发现信息。

  6. 聚类还用于异常检测应用程序,例如信用卡欺诈检测。

  7. 作为数据挖掘功能,聚类分析充当一个工具,用于深入了解数据分布,以观察每个簇的特征。

Requirements of Clustering in Data Mining

以下要点阐明了为什么需要在数据挖掘中进行聚类 −

  1. Scalability − 我们需要高度可扩展的聚类算法来处理大型数据库。

  2. Ability to deal with different kinds of attributes − 算法应该能够应用于任何类型的数据,例如基于间隔(数值)的数据、分类数据和二进制数据。

  3. Discovery of clusters with attribute shape − 聚类算法应该能够检测出任意形状的簇。它们不应局限于仅寻找小尺寸球形簇的距离度量。

  4. High dimensionality − 聚类算法不仅应该能够处理低维数据,还应该能够处理高维空间。

  5. Ability to deal with noisy data − 数据库包含有噪声、缺失或错误的数据。有些算法对这些数据敏感,并且会导致质量较差的簇。

  6. Interpretability − 聚类结果应该具有可解释性、可理解性且可用。

Clustering Methods

聚类方法可归类为以下类别−

  1. Partitioning Method

  2. Hierarchical Method

  3. Density-based Method

  4. Grid-Based Method

  5. Model-Based Method

  6. Constraint-based Method

Partitioning Method

假设我们给定一个由“n”个对象组成的数据库,并且划分法构建了“k”个数据分区。每个分区都将表示一个簇,并且k ≤ n。这意味着它会将数据分成k个组,满足以下要求−

  1. 每组至少包含一个对象。

  2. 每个对象必须恰好属于一组。

Points to remember −

  1. 对于给定的分区数(例如k),划分法将创建一个初始分区。

  2. 然后,它使用迭代重定位技术通过将对象从一组移动到另一组来改进分区。

Hierarchical Methods

这种方法对给定的数据对象集创建了一种分层分解。我们可以根据分层分解的形成方式对分层方法进行分类。这里有两种方法−

  1. Agglomerative Approach

  2. Divisive Approach

Agglomerative Approach

这种方法也称为自下而上的方法。在这种方法中,我们从每个对象形成一个单独的组开始。其不断合并彼此接近的对象或组。其会不断这样做,直到所有组都合并为一个或直到终止条件成立。

Divisive Approach

这种方法也称为自上而下的方法。在这种方法中,我们从同一个簇中的所有对象开始。在连续迭代中,将一个簇分成较小的簇。其会进行此操作,直到一个簇中的每个对象或终止条件成立。该方法是严格的,即一旦合并或分裂完成,则永远无法撤消。

Approaches to Improve Quality of Hierarchical Clustering

以下是用于提高分层聚类质量的两种方法−

  1. 在每个分层分区中仔细分析对象链接。

  2. 通过首先使用分层凝聚算法将对象分组到微簇中,整合分层凝聚,然后对微簇执行宏聚类。

Density-based Method

此方法基于密度的概念。基本想法是在邻域密度超过一定阈值时继续扩展给定簇,即对于给定簇中的每个数据点,给定簇的半径至少要包含最少数量的点。

Grid-based Method

在此当中,对象共同形成一个网格。对象空间被量子化成有限数量的单元格,形成了网格结构。

Advantages

  1. 此方法的主要优点是处理速度快。

  2. 它仅依赖于量子化空间中每个维度中的单元格数量。

Model-based methods

在此方法中,假设每个簇一个模型,以找到给定模型的最佳数据拟合。此方法通过对密度函数进行聚类来定位簇。它反映了数据点的空间分布。

此方法还提供了一种基于标准统计数据自动确定簇数量的方法,将离群点或噪声考虑在内。因此,它产生了鲁棒的聚类方法。

Constraint-based Method

在此方法中,聚类是通过纳入用户或面向应用程序的约束执行的。约束指的是用户期望或所需聚类结果的属性。约束为我们提供了一种与聚类过程进行交互的方式。约束可以由用户或应用程序要求指定。