Gen-ai 简明教程

The Role of Probability Distribution in Generative Models

机器学习 (ML) 和深度学习 (DL) 进步使机器能够从过去的数据中学习,甚至可以从看不见的数据中进行预测。此类进步之一是生成模型,它捕获数据的底层分布并生成与原始训练数据相当的新数据。但他们是如何做到的呢?

借助概率分布,生成模型可以管理数据中的不确定性和变化。阅读本章以了解概率分布、其类型、其在生成建模中的用途及其应用。

What is Probability Distribution?

概率分布是一种数学函数,它表示给定范围内随机变量的不同可能值的概率。我们可以使用图形或概率表来描述概率分布。

例如,想象一下抛硬币,有一个概率分布告诉我们正面或反面的几率。以下概率表对其进行了描述 −

Outcomes

Probability

Heads

0.5

Tails

0.5

概率分布是频数分布 (FD) 的理论表示。在统计中,FD 描述了数据集中的变量出现的次数。另一方面,概率分布除了频数外,还为它们分配概率。

众所周知,概率表示某件事发生的可能性是一个数字,介于 0(表示不可能)和 1(表示肯定)之间。这就是为什么一个值越有可能是它在样本中出现的频率越高。

Types of Probability Distributions

有两种类型的概率分布 −

  1. Discrete Probability Distributions

  2. Continuous Probability Distributions

让我们仔细看看这两种类型的概率分布。

Discrete Probability Distributions

离散概率分布是描述离散或分类随机变量中不同事件概率的数学函数。

离散概率分布仅包含具有可能概率的值。简单来说,它不包括任何零概率的值。例如,5.5 不是掷骰子的可能结果,因此它不包括在掷骰子的概率分布中。

离散概率分布中所有可能值的概率总和始终为 1。

让我们看看一些 common discrete probability distributions

Discrete Probability Distribution

Explanation

Example

Bernoulli Distribution

它描述了单个实验中成功的概率 (1) 或失败的概率 (0)。

单次掷硬币的结果。

Binomial Distribution

对在 n 次固定试验中 p 概率的成功次数进行建模。

抛掷一枚硬币 10 次,出现正面次数。

Poisson Distribution

预测固定时间或空间间隔内事件发生的 k。

每天收到的电子邮件信息数。

Geometric Distribution

表示在序列试验中取得首次成功的所需的试验次数。

反复抛掷硬币,直至正面出现为止的次数。

Hypergeometric Distribution

计算从 finite 人口中抽取特定成功次数的概率。

从颜色混合的球袋中抽出的红球数量。

Continuous Probability Distributions

顾名思义,连续概率分布是描述连续数值范围中不同事件发生概率的数学函数。

连续概率分布包括无限数量的可能值。例如,在区间 [4, 5] 中,4 和 5 之间有无限个值。

我们来看一些常见的连续概率分布 −

Continuous Probability Distribution

Explanation

Example

Continuous Uniform Distribution

对等大小的区间内所有值分配同等的概率。

一个人身高介于 5 到 6 英尺之间。

Normal (Gaussian) Distribution

形成一个钟形曲线,描述了围绕均值的聚集数据和对称尾部。

IQ scores

Exponential Distribution

它对泊松过程中的事件之间的事件建模,其中事件以恒定速率发生。

直到下一个客户到来为止的时间。

Log-normal Distribution

以对数刻度绘制时,表示右偏数据。

股票价格、收入分布等。

Beta Distribution

描述限定在有限区间内的随机变量。它通常用于贝叶斯统计中。

在二项式试验中获得成功的概率。

Use of Probability Distributions in Generative Modeling

概率分布生成模型中扮演了一个至关重要的角色。让我们看看概率分布如何在生成模型中被使用的一些重要方式——

  1. Data Distribution ——生成模型旨在捕捉数据的基础概率分布,从中获取样本。

  2. Generating New Samples ——一旦理解了数据分布,生成模型就能生成可与原始数据集相比较的新数据。

  3. Evaluation and Training ——概率分布被用来评估和训练生成模型。评估指标诸如似然性、困惑度和 Wasserstein 距离用来评估已生成样本与原始数据集相比的质量。

  4. Variability and Uncertainty ——概率分布被用来查找数据中呈现出的可变性和不确定性。生成模型可以使用此信息生成独特且真实的样本。

Applications of Probability Distribution

在各个领域中有广泛的生成模型任务使用了概率分布,其中一些如下所列——

  1. Image Generation ——生成模型诸如生成对抗网络(GAN)和变分自编码器(VAE)使用概率分布从头开始生成真实的图像。这在计算机图形、创意设计和内容生成中有着广泛的应用。

  2. Text Synthesis ——语言模型诸如 OpenAI 的 ChatGPT,使用概率分布根据给出的提示或输入生成相关的文本输出。这在聊天机器人、虚拟助手和自动内容生成系统中有着广泛的应用。

  3. Anomaly Detection ——生成模型通过学习正常数据的基础概率分布,可以用来进行异常检测和识别数据集中离群值。这在欺诈检测、网络安全和医学诊断中有着广泛的应用。

Conclusion

在本章中,我们解释了生成模型中概率分布的关键作用。我们首先涵盖了概率分布的类型,即离散概率分布和连续概率分布以及它们是什么。

离散概率分布描述了离散随机变量或分类随机变量中不同事件发生的概率,而连续概率分布描述了连续变量值范围内内不同事件发生的概率。我们还重点介绍了一些常见的离散概率分布和连续概率分布。

我们论证了数据分布、生成新样本、评估和训练是如何成为概率分布被用来生成模型生成新样本的重要方法。我们还重点介绍了概率分布在图像生成、文本合成和异常检测等生成模型任务中的不同应用。