Machine Learning 简明教程

Machine Learning - Semi-supervised

半监督机器学习算法既不是完全监督的也不是完全无监督的。它们基本上介于两者之间,即监督学习方法和无监督学习方法。

半监督算法通常使用小型监督学习组件,即少量的预先标注数据和大型无监督学习组件,即大量的未标注数据用于训练。

我们可以遵循以下任何一种方法来实现半监督学习方法 −

  1. 第一种简单的方法是基于少量标注数据构建监督模型,然后通过将相同的方法应用于大量未标注数据来获取更多标注样本,从而构建无监督模型。现在,根据这些样本训练模型并重复此过程。

  2. 第二种方法需要一些额外的工作。在这种方法中,我们首先可以使用无监督方法对类似的数据样本进行聚类,注释这些组,然后使用这些信息的组合来训练模型。

该算法针对包含标注数据和未标注数据的数据集进行训练。当我们有一大组可用的未标注数据时,通常使用半监督学习。在任何监督学习算法中,可用的数据都必须进行手动标注,这可能是一个相当昂贵的过程。相比之下,无监督学习中使用的未标注数据具有有限的应用。因此,开发了无监督学习算法,可以在这两者之间提供完美的平衡。

半监督学习算法在文本分类、图像分类、语音分析、异常检测等应用中找到了它的应用,其中一般目标是将实体分类为预定义的类别。半监督算法假设数据可以划分为离散的簇,并且彼此距离较近的数据点更有可能共享相同的输出标签。