Machine Learning 简明教程
Machine Learning - Unsupervised
What is Unsupervised Learning?
在无监督机器学习算法中,我们没有任何主管来提供任何形式的指导。无监督学习算法在没有自由度(如在监督学习算法中拥有预先标记的训练数据)的情况下很方便,我们想从输入数据中提取有用的模式。
无监督机器学习算法的示例包括 K-means clustering, K-nearest neighbors 等。
在回归中,我们训练机器预测未来值。在分类中,我们训练机器将未知对象分类到我们定义的某个类别中。简而言之,我们一直在训练机器,以便它能够为我们的数据 X 预测 Y。给定一个庞大的数据集且不估计类别,我们很难使用监督学习来训练机器。如果机器能够查找和分析大小达到几个千兆字节和太字节的大数据,并告诉我们这个数据包含很多不同的类别,会怎样?
以选民数据为例。通过考虑每个选民的一些输入(在 AI 术语中称为特征),让机器预测有这么多的选民会为 X 政党投票,还有这么多的会为 Y 投票,等等。因此,总的来说,我们询问机器一个给定一个巨大的数据点 X 的数据集,“你能告诉我 X 的什么?”。或者它可能是一个类似于“我们可以从 X 中找出哪五个最好的组?”的问题。或者它甚至可以是“哪三个特征在 X 中一起出现的频率最高?”。
这正是无监督学习所要做的。
Algorithms for Unsupervised Learning
现在让我们讨论一下无监督学习中广泛使用的一种分类算法。
k-means clustering
2000 和 2004 年的美国总统选举都很接近——非常接近。任何候选人收到的最高普选票百分比为 50.7%,最低为 47.9%。如果有一定百分比的选民改变立场,选举的结果就会不同。有一些小团体选民,在适当劝说后会改变立场。这些团体可能并不庞大,但对于如此接近的竞选来说,他们可能足以改变选举结果。你如何找到这些人群?你如何用有限的预算吸引他们?答案是聚类。
让我们了解它是如何工作的。
-
首先,你收集有关人群的信息,无论是否征得他们的同意:任何可能提供一些关于什么对他们重要以及什么会影响他们投票意向的信息。
-
然后,将这些信息放入某种聚类算法中。
-
接下来,针对每个集群(明智的方法是先选择最大的一个),你需要制作一条吸引这些选民的信息。
-
最后,展示广告系列并进行衡量来查看其效果。
聚类是一种无监督学习,可自动形成相似事物的集群。这类似于自动分类。你可以对几乎所有事物进行聚类,集群中项目越相似,则集群越好。在本章中,我们将研究一种称为 k 均值聚类的聚类算法。称其为 k 均值,因为它找到“k”个独特的集群,每个集群的中心はその集群中的值的平均值。
Association
另一种有用的无监督 ML 方法是 Association ,它基本上用于分析大型数据集以查找进一步表示不同项目之间有趣关系的模式。它也称为 Association Rule Mining 或 Market basket analysis ,主要用于分析客户购物模式。