视觉生成术语表

本术语表记录视觉生成领域的核心概念。每学习一课，这里都会新增相关术语。

使用说明：按 Ctrl+F（或 Cmd+F）可快速搜索术语。

A

一种训练策略，通过两个模型（生成器和判别器）相互对抗来提升生成质量。生成器试图欺骗判别器，判别器试图区分真伪。

相关模型：GAN 系列

通过逐步向数据添加噪声（前向过程），再学习逆向去噪（反向过程）来生成数据的模型。当前图像生成的主流范式。

代表模型：DDPM, Stable Diffusion, DALL·E 2

从含有噪声的数据中恢复原始数据的过程。在扩散模型中，网络学习预测并去除添加的噪声。

证据下界，变分推断中的核心目标函数。在 VAE 中用于近似难以直接计算的对数似然。

直觉：通过优化一个可计算的下界来间接优化真实目标。

由生成器和判别器组成的框架。生成器生成假样本，判别器判断真伪，二者博弈达到纳什均衡。

特点：生成速度快，但训练不稳定，容易出现模式坍缩。

GAN 训练中的常见问题，生成器只学会生成少数几种样本，忽略了数据分布的多样性。

比喻：一个只会画猫的画家，尽管训练数据里还有狗、鸟等。

不可直接观测的变量，用于表示数据的潜在结构或压缩表示。VAE 和 Latent Diffusion 都利用隐变量空间。

在压缩后的隐变量空间而非像素空间进行扩散过程的模型。显著降低了计算成本，是 Stable Diffusion 的核心思想。

对数概率密度关于数据的梯度，指向数据密度更高的方向。Score-based 模型学习估计这个函数来生成样本。

VAE 中的关键技术，通过引入独立噪声变量，使得采样过程可微分，从而可以使用梯度下降训练。

直觉：z = μ + σ * ε，其中 ε 是标准正态分布的随机噪声。

一种生成模型，通过编码器将数据映射到概率分布，解码器从分布中采样重建数据。学习数据的连续隐表示。

核心思想：在隐空间中进行概率推断，允许平滑插值和生成新样本。

使用离散码本（Codebook）而非连续分布的 VAE 变体。将图像编码为离散 token 序列，可与自回归模型结合。

代表模型：DALL·E, Parti

随着课程推进，以下术语将逐步添加：Classifier-Free Guidance, Cross-Attention, CLIP, ControlNet, Inpainting, Prompt Engineering, T2I-Adapter ...