快速对比不同生成范式的核心特性。本表将随课程更新而扩展。
| 特性 | GAN | VAE | 扩散模型 | 自回归 |
|---|---|---|---|---|
| 核心思想 | 对抗博弈 | 概率编码-解码 | 逐步去噪 | 序列预测 |
| 训练稳定性 | ⚠️ 困难 | ✅ 稳定 | ✅ 稳定 | ✅ 稳定 |
| 生成速度 | ✅ 快(单次前向) | ✅ 快(单次前向) | ❌ 慢(多步采样) | ❌ 慢(逐 token) |
| 样本质量 | 高(训练好时) | 中等(偏模糊) | 很高 | 高 |
| 模式覆盖 | ⚠️ 易模式坍缩 | ✅ 较好 | ✅ 全面 | ✅ 全面 |
| 条件控制 | 中等 | 中等 | ✅ 优秀 | ✅ 优秀 |
| 隐空间 | 有(但无显式概率) | 有(概率分布) | 有(Latent 版本) | 离散码本 |
| SOTA 代表 | StyleGAN3 | VQ-VAE | Stable Diffusion 3 | Parti, DALL·E |
| 最佳场景 | 特定域高质量生成 | 压缩与表示学习 | 通用文本到图像 | 高分辨率、复杂构图 |
| 模型 | 空间 | 条件方式 | 采样步数 | 特点 |
|---|---|---|---|---|
| DDPM | 像素空间 | 类别标签 | 1000+ | 奠基工作,质量好但慢 |
| DDIM | 像素空间 | 类别标签 | 50-100 | 确定性采样,加速版本 |
| Latent Diffusion | 隐空间 | 文本/图像 | 50 | 计算高效,开源生态丰富 |
| Stable Diffusion XL | 隐空间 | 文本 | 20-50 | 更高分辨率,Refiner 模块 |
| DiT | 隐空间 | 文本 | 可变 | Transformer 架构扩散 |
开源Latent Diffusion社区生态
最流行的开源文本到图像模型。基于 Latent Diffusion,在压缩的隐空间中进行扩散,大幅降低计算成本。拥有庞大的社区生态和微调模型(LoRA、ControlNet 等)。
版本演进:SD 1.x → SD 2.x → SDXL → SD 3
商业GPT 架构高质量
DALL·E 使用 VQ-VAE + GPT 的架构,DALL·E 2 转向扩散模型 + CLIP。DALL·E 3 显著提升了文本理解能力,能处理复杂长文本描述。
商业Discord艺术风格
基于扩散模型的商业服务,以其出色的艺术风格和美学质量著称。通过 Discord 提供服务,拥有活跃的创作者社区。
研究大语言模型文本理解
使用大型语言模型(T5-XXL)编码文本,然后级联扩散模型生成图像。特别强调文本理解的准确性。
开源2024 SOTA高质量
2024 年发布的新一代开源模型,由 Stable Diffusion 原班人马创立。在图像质量和文本理解上达到商业级水平,提供多个版本(Flux.1 [pro]、[dev]、[schnell])。