Gen-ai 简明教程

Types of Generative Models

生成模型近年来获得了极大的普及。这些创新算法主要用于无监督学习,在处理数据的潜在分布以及生成复杂的输出方面很熟练,例如图像、音乐和自然语言,这些输出与原始训练数据相当。

阅读本章以探索三种突出且最广泛使用的生成模型类型: Generative Adversarial Networks (GANs), AutoencodersVariational Autoencoders (VAEs)

Generative Adversarial Networks (GANs)

生成对抗网络 (GAN) 由 Ian Goodfellow 和他的队友于 2014 年推出。GAN 是一种生成建模方法,基于能够生成看起来像原始训练数据的新复杂输出的深度神经网络架构。GAN 框架具有两个神经网络——“ Generator ”和“ Discriminator ”。

Working of GANs

让我们借助下面给出的图表了解 GAN 模型的工作原理:

types of generative models 1

如图表所示,GAN 具有两个主要组成部分: generator networkdiscriminative network

该过程首先向生成器提供一个随机种子/噪声向量。现在,生成器使用此输入创建新的合成样本。然后,这些生成的样本以及提供给判别网络的真实数据样本。

然后,判别网络评估这些样本的真实性,即样本是真实还是假的。最后,判别器通过反向传播调整发生器的参数,对发生器的输出提供反馈。

然后,生成器和判别器继续学习和彼此适应,直到生成器生成非常逼真的样本,可以欺骗判别器。

Application of GANs

生成对抗网络 (GAN) 在各个领域都有应用。事实上,OpenAI 开发的特定模型 DALL-E 将 GAN 和 Transformer 的思想相结合,可以从文本描述中生成图像。

GAN 的其他一些应用包括以下内容:

  1. Image Generation

  2. Data Augmentation

  3. Text-to-Image Synthesis

  4. Video Generation and Prediction

  5. Anomaly Detection

  6. Face Aging and Rejuvenation

  7. 风格迁移和图像编辑

Autoencoders

另一个广泛使用的生成模型是 autoencoders ,它彻底改变了计算机视觉到自然语言处理等各个领域。

自动编码器是一种 Artificial Neural Network (ANN) ,旨在以无监督的方式学习数据编码。用于分类和回归等监督学习任务的传统神经网络将输入数据映射到相应的输出标签。另一方面,自动编码器通过将高维输入数据解码成低维表示来学习重建输入数据。

The Architecture of Autoencoders

自动编码器的架构包含三个主要部分:

  1. Encoder - 通过将输入数据映射到低维表示,它将信息压缩成密集编码。

  2. Bottleneck Layer (Latent Space) - 在此层中,潜在空间表示以压缩形式捕获输入数据的本质特征。

  3. Decoder - 通过重建它将压缩表示解压缩回原始输入空间。该模块的主要目的是最小化重建误差。

types of generative models 2

Application of Autoencoders

以下列出了自动编码器的一些应用:

  1. Image Compression and Reconstruction

  2. Feature Learning and Representation

  3. Anomaly Detection

  4. Dimensionality Reduction

  5. Natural Language Processing

Variational Autoencoders

变分自动编码器 (VAE) 是一类生成模型,其基于我们上面研究过的自动编码器概念。

传统自动编码器学习输入和潜在空间表示之间的确定性映射。另一方面,VAE 为潜在空间中的概率分布生成参数。此功能使 VAE 能够捕获输入数据样本的潜在概率分布。

Architecture and Components of VAEs

与自动编码器类似,VAE 的架构包含两个主要组件:编码器和解码器。在 VAE 中,编码器不使用自动编码器中的确定性映射,而是提出将概率建模到潜在空间中。

以下给出了 VAE 的关键组件:

  1. Encoder - 它将输入数据样本映射到潜在空间中概率分布的参数。映射后,编码器给出每个数据点的均值和方差向量。

  2. Latent Space - 此组件表示编码器学习到的输入样本数据的概率。

  3. Decoder - 它使用来自潜在空间的样本重建数据样本。解码器的目的是匹配输入数据分布。

Application of Variational Autoencoders (VAEs)

变分自动编码器 (VAE) 发现它们在各种域中的应用,如自动编码器。其中一些如下所列 −

  1. Image Generation

  2. Data Visualization

  3. Feature Learning

  4. Anomaly Detection

  5. Natural Language Processing

在后续章节中,我们将详细讨论这些突出且最广泛使用的生成模型类型。

Conclusion

在本章中,我们对三种使用最广泛的生成模型进行了概述,即生成对抗网络 (GAN)、自动编码器和变分自动编码器 (VAE)。它们独特的性能促进了生成建模的发展。

GAN 凭借其对抗训练框架,可以生成看起来像原始训练数据的新复杂输出。我们讨论了 GAN 使用其框架的工作原理,该框架由两个神经网络组成: GeneratorDiscriminator

另一方面,自动编码器的目的是以无监督的方式学习数据编码。它们通过将高维输入数据解码为低维表示来重建输入数据。

变分自动编码器 (VAE) 引入了概率潜在空间表示。它们通过捕获样本输入数据的潜在概率分布,弥合了自动编码器和概率建模之间的差距。

无论是生成逼真的图像、学习有意义的数据表示还是探索概率潜在空间表示,GAN、自动编码器和 VAE 都在塑造人工智能驱动的生成技术的未来。