Machine Learning 简明教程

Machine Learning - Unsupervised

What is Unsupervised Learning?

在无监督机器学习算法中,我们没有任何主管来提供任何形式的指导。无监督学习算法在没有自由度(如在监督学习算法中拥有预先标记的训练数据)的情况下很方便,我们想从输入数据中提取有用的模式。

无监督机器学习算法的示例包括 K-means clustering, K-nearest neighbors 等。

在回归中,我们训练机器预测未来值。在分类中,我们训练机器将未知对象分类到我们定义的某个类别中。简而言之,我们一直在训练机器,以便它能够为我们的数据 X 预测 Y。给定一个庞大的数据集且不估计类别,我们很难使用监督学习来训练机器。如果机器能够查找和分析大小达到几个千兆字节和太字节的大数据,并告诉我们这个数据包含很多不同的类别,会怎样?

以选民数据为例。通过考虑每个选民的一些输入(在 AI 术语中称为特征),让机器预测有这么多的选民会为 X 政党投票,还有这么多的会为 Y 投票,等等。因此,总的来说,我们询问机器一个给定一个巨大的数据点 X 的数据集,“你能告诉我 X 的什么?”。或者它可能是一个类似于“我们可以从 X 中找出哪五个最好的组?”的问题。或者它甚至可以是“哪三个特征在 X 中一起出现的频率最高?”。

这正是无监督学习所要做的。

Algorithms for Unsupervised Learning

现在让我们讨论一下无监督学习中广泛使用的一种分类算法。

k-means clustering

2000 和 2004 年的美国总统选举都很接近——非常接近。任何候选人收到的最高普选票百分比为 50.7%,最低为 47.9%。如果有一定百分比的选民改变立场,选举的结果就会不同。有一些小团体选民,在适当劝说后会改变立场。这些团体可能并不庞大,但对于如此接近的竞选来说,他们可能足以改变选举结果。你如何找到这些人群?你如何用有限的预算吸引他们?答案是聚类。

让我们了解它是如何工作的。

  1. 首先,你收集有关人群的信息,无论是否征得他们的同意:任何可能提供一些关于什么对他们重要以及什么会影响他们投票意向的信息。

  2. 然后,将这些信息放入某种聚类算法中。

  3. 接下来,针对每个集群(明智的方法是先选择最大的一个),你需要制作一条吸引这些选民的信息。

  4. 最后,展示广告系列并进行衡量来查看其效果。

聚类是一种无监督学习,可自动形成相似事物的集群。这类似于自动分类。你可以对几乎所有事物进行聚类,集群中项目越相似,则集群越好。在本章中,我们将研究一种称为 k 均值聚类的聚类算法。称其为 k 均值,因为它找到“k”个独特的集群,每个集群的中心はその集群中的值的平均值。

Cluster Identification

集群识别告诉算法:“这里有一些数据。现在,将相似的事物组合在一起,并向我介绍这些组。”与分类的关键区别在于,在分类中,你了解正在寻找什么。然而,在聚类中则不是这种情况。

聚类有时被称为无监督分类,因为它产生与分类相同的结果,但无需预先定义类。

基于 ML 任务,无监督学习算法可以分为以下几个广泛的类别:聚类、关联、降维和异常检测。

Clustering

聚类方法是最有用的无监督 ML 方法之一。这些算法用于查找数据样本的相似性和关系模式,然后将这些样本聚类到具有基于特征的相似性的组中。聚类的实际示例是按购买行为对客户进行分组。

Association

另一种有用的无监督 ML 方法是 Association ,它基本上用于分析大型数据集以查找进一步表示不同项目之间有趣关系的模式。它也称为 Association Rule MiningMarket basket analysis ,主要用于分析客户购物模式。

Dimensionality Reduction

顾名思义,这种无监督 ML 方法用于通过选择一组主要特征或代表性特征来减少每个数据样本的特征变量数量。

这里出现了一个问题,那就是我们为什么需要降维?这背后的原因是当我们开始分析和从数据样本中提取数百万个特征时,特征空间复杂性的问题就出现了。这个问题通常被称为“维数灾难”。主成分分析 (PCA)、k 最近邻和判别分析是用于此目的的几种流行算法。

Anomaly Detection

这种无监督 ML 方法用于找出通常不会发生的罕见事件或观察结果的发生情况。通过使用学习到的知识,异常检测方法将能够区分异常数据点或正常数据点。

一些无监督算法(如聚类、KNN)可以根据数据及其特征检测异常。