视觉生成模型对比

快速对比不同生成范式的核心特性。本表将随课程更新而扩展。

四大范式概览

特性 GAN VAE 扩散模型 自回归
核心思想 对抗博弈 概率编码-解码 逐步去噪 序列预测
训练稳定性 ⚠️ 困难 ✅ 稳定 ✅ 稳定 ✅ 稳定
生成速度 ✅ 快(单次前向) ✅ 快(单次前向) ❌ 慢(多步采样) ❌ 慢(逐 token)
样本质量 高(训练好时) 中等(偏模糊) 很高
模式覆盖 ⚠️ 易模式坍缩 ✅ 较好 ✅ 全面 ✅ 全面
条件控制 中等 中等 ✅ 优秀 ✅ 优秀
隐空间 有(但无显式概率) 有(概率分布) 有(Latent 版本) 离散码本
SOTA 代表 StyleGAN3 VQ-VAE Stable Diffusion 3 Parti, DALL·E
最佳场景 特定域高质量生成 压缩与表示学习 通用文本到图像 高分辨率、复杂构图

扩散模型变体对比

模型 空间 条件方式 采样步数 特点
DDPM 像素空间 类别标签 1000+ 奠基工作,质量好但慢
DDIM 像素空间 类别标签 50-100 确定性采样,加速版本
Latent Diffusion 隐空间 文本/图像 50 计算高效,开源生态丰富
Stable Diffusion XL 隐空间 文本 20-50 更高分辨率,Refiner 模块
DiT 隐空间 文本 可变 Transformer 架构扩散

SOTA 文本到图像模型

Stable Diffusion 系列

开源Latent Diffusion社区生态

最流行的开源文本到图像模型。基于 Latent Diffusion,在压缩的隐空间中进行扩散,大幅降低计算成本。拥有庞大的社区生态和微调模型(LoRA、ControlNet 等)。

版本演进:SD 1.x → SD 2.x → SDXL → SD 3

DALL·E 系列 (OpenAI)

商业GPT 架构高质量

DALL·E 使用 VQ-VAE + GPT 的架构,DALL·E 2 转向扩散模型 + CLIP。DALL·E 3 显著提升了文本理解能力,能处理复杂长文本描述。

Midjourney

商业Discord艺术风格

基于扩散模型的商业服务,以其出色的艺术风格和美学质量著称。通过 Discord 提供服务,拥有活跃的创作者社区。

Imagen (Google)

研究大语言模型文本理解

使用大型语言模型(T5-XXL)编码文本,然后级联扩散模型生成图像。特别强调文本理解的准确性。

Flux (Black Forest Labs)

开源2024 SOTA高质量

2024 年发布的新一代开源模型,由 Stable Diffusion 原班人马创立。在图像质量和文本理解上达到商业级水平,提供多个版本(Flux.1 [pro]、[dev]、[schnell])。