本术语表记录视觉生成领域的核心概念。每学习一课,这里都会新增相关术语。
一种训练策略,通过两个模型(生成器和判别器)相互对抗来提升生成质量。生成器试图欺骗判别器,判别器试图区分真伪。
相关模型:GAN 系列
通过逐步向数据添加噪声(前向过程),再学习逆向去噪(反向过程)来生成数据的模型。当前图像生成的主流范式。
代表模型:DDPM, Stable Diffusion, DALL·E 2
从含有噪声的数据中恢复原始数据的过程。在扩散模型中,网络学习预测并去除添加的噪声。
证据下界,变分推断中的核心目标函数。在 VAE 中用于近似难以直接计算的对数似然。
直觉:通过优化一个可计算的下界来间接优化真实目标。
由生成器和判别器组成的框架。生成器生成假样本,判别器判断真伪,二者博弈达到纳什均衡。
特点:生成速度快,但训练不稳定,容易出现模式坍缩。
GAN 训练中的常见问题,生成器只学会生成少数几种样本,忽略了数据分布的多样性。
比喻:一个只会画猫的画家,尽管训练数据里还有狗、鸟等。
不可直接观测的变量,用于表示数据的潜在结构或压缩表示。VAE 和 Latent Diffusion 都利用隐变量空间。
在压缩后的隐变量空间而非像素空间进行扩散过程的模型。显著降低了计算成本,是 Stable Diffusion 的核心思想。
对数概率密度关于数据的梯度,指向数据密度更高的方向。Score-based 模型学习估计这个函数来生成样本。
VAE 中的关键技术,通过引入独立噪声变量,使得采样过程可微分,从而可以使用梯度下降训练。
直觉:z = μ + σ * ε,其中 ε 是标准正态分布的随机噪声。
一种生成模型,通过编码器将数据映射到概率分布,解码器从分布中采样重建数据。学习数据的连续隐表示。
核心思想:在隐空间中进行概率推断,允许平滑插值和生成新样本。
使用离散码本(Codebook)而非连续分布的 VAE 变体。将图像编码为离散 token 序列,可与自回归模型结合。
代表模型:DALL·E, Parti
随着课程推进,以下术语将逐步添加:Classifier-Free Guidance, Cross-Attention, CLIP, ControlNet, Inpainting, Prompt Engineering, T2I-Adapter ...