视觉生成模型对比

快速对比不同生成范式的核心特性。本表将随课程更新而扩展。

四大范式概览

开源Latent Diffusion社区生态

最流行的开源文本到图像模型。基于 Latent Diffusion，在压缩的隐空间中进行扩散，大幅降低计算成本。拥有庞大的社区生态和微调模型（LoRA、ControlNet 等）。

版本演进：SD 1.x → SD 2.x → SDXL → SD 3

商业GPT 架构高质量

DALL·E 使用 VQ-VAE + GPT 的架构，DALL·E 2 转向扩散模型 + CLIP。DALL·E 3 显著提升了文本理解能力，能处理复杂长文本描述。

商业Discord艺术风格

基于扩散模型的商业服务，以其出色的艺术风格和美学质量著称。通过 Discord 提供服务，拥有活跃的创作者社区。

研究大语言模型文本理解

使用大型语言模型（T5-XXL）编码文本，然后级联扩散模型生成图像。特别强调文本理解的准确性。

开源2024 SOTA高质量

2024 年发布的新一代开源模型，由 Stable Diffusion 原班人马创立。在图像质量和文本理解上达到商业级水平，提供多个版本（Flux.1 [pro]、[dev]、[schnell]）。