第一课：视觉生成全景图

视觉生成系列课程 · 建立领域地图

为什么学习视觉生成？

想象你对着电脑描述"一只穿着宇航服的柴犬在月球上弹吉他"，几秒钟后，一幅精美的图像出现在屏幕上。这不是魔法，而是视觉生成模型的能力。

从 2014 年 GAN 的问世，到 2020 年扩散模型的崛起，再到今天 Midjourney、DALL·E、Stable Diffusion 等工具的普及，视觉生成已经成为人工智能最引人注目的领域之一。无论你是研究者还是从业者，理解这个领域的核心原理都将为你打开新的可能性。

本课目标：建立视觉生成的"认知地图"——了解领域的发展脉络、核心范式和关键问题，为后续深入学习打下基础。

什么是视觉生成？

视觉生成（Visual Generation）是计算机视觉的一个子领域，研究如何让机器创造出新的视觉内容（图像、视频、3D 等）。与识别任务（判断图片里有什么）不同，生成任务要求模型从零创造——或者基于某种条件（如文本描述）来创造。

"生成模型的本质是学习数据的概率分布，然后从中采样新的样本。"

简单来说，生成模型试图回答这个问题：真实世界中的图像是什么样的？一旦模型"理解"了真实图像的规律，它就能创造出看起来也像是真实世界产物的图像。

四大核心范式

视觉生成领域经历了多次范式转移。目前主流的方法可归为四大类：

1. 生成对抗网络 (GAN)

2014对抗训练速度快

核心思想：两个人工智能的"博弈"。一个画家（生成器）试图画出逼真的图像，一个鉴赏家（判别器）试图分辨真假。双方在对抗中共同进步。

比喻：就像假币制造者和鉴宝专家的博弈——制造者越来越精，鉴宝者越来越毒，最终假币几乎可以以假乱真。

代表：StyleGAN 系列（人脸生成质量极高）

优缺点：生成速度快（一次前向传播即可），但训练困难，容易出现"只会画猫"的模式坍缩问题。

2. 变分自编码器 (VAE)

2013概率模型隐空间

核心思想：将图像压缩到一个"隐空间"（Latent Space），在这个压缩的空间中进行操作。VAE 不仅学习压缩，还学习隐空间中的概率分布。

比喻：想象一个超级高效的"图像 ZIP 压缩器"，但它不仅能压缩/解压，还能在压缩后的空间里做数学运算，生成全新的图像。

代表：VQ-VAE（离散版本，被 DALL·E 采用）

优缺点：训练稳定，隐空间结构良好（可以做插值），但生成质量通常不如 GAN 锐利。

3. 扩散模型 (Diffusion Model)

2020+当前主流高质量

核心思想：通过两个过程工作——先逐步给图像加噪声直到变成纯雪花屏（前向），再学习如何一步步去噪恢复图像（反向）。生成时，从纯噪声出发，经过多步去噪得到新图像。

比喻：就像雕塑家面对一块大理石，一点点去除多余部分，最终 revealing 出雕像。或者像照片显影——从空白的相纸上逐渐显现出图像。

代表：Stable Diffusion、DALL·E 2、Imagen

优缺点：生成质量极高，训练稳定，模式覆盖全面。但需要多步采样，生成速度较慢。

4. 自回归模型 (Autoregressive)

2020+序列生成高分辨率

核心思想：将图像看作一个像素（或图像块）的序列，像 GPT 生成文本一样，一个像素一个像素地生成图像。通常先使用 VQ-VAE 将图像转为离散 token，再用 Transformer 预测序列。

比喻：像画家一笔一笔地作画，每一笔都基于已经画好的部分。或者像填字游戏，逐个格子确定。

代表：DALL·E (v1)、Parti、ImageGPT

优缺点：可以生成非常高分辨率的图像，擅长复杂构图。但生成速度慢（要逐个 token），且早期质量不如扩散模型。

发展历程时间线

2013-2014 · 奠基期

VAE 和 GAN 相继问世，开启了神经网络生成图像的时代。GAN 迅速成为主流，产生了大量变体。

2018-2019 · 突破期

StyleGAN 发布，GAN 生成的人脸几乎无法与真人区分。同时，BERT/GPT 展示了 Transformer 在序列建模上的强大能力。

2020-2021 · 转折期

DDPM 证明扩散模型可以生成高质量图像。DALL·E 展示了文本到图像的可能性。CLIP 建立了文本和图像的桥梁。

2022 · 爆发期

Stable Diffusion 开源，DALL·E 2 和 Midjourney 向公众开放，文本到图像生成进入大众视野。

2023-2024 · 成熟期

ControlNet 实现精细控制，SDXL 提升分辨率，Flux 等新一代模型在质量上逼近商业产品。视频生成（Sora）成为新热点。

核心挑战

尽管视觉生成取得了惊人进展，但仍面临几个根本性挑战：

1. 质量 vs 多样性的权衡

GAN 生成质量高但容易模式坍缩（缺乏多样性）；扩散模型覆盖全面但需要多步采样。如何在两者之间取得平衡仍是研究热点。

2. 可控性

如何让模型精确遵循用户的意图？从文本描述到空间布局、风格、姿态的精细控制，是工业应用的核心需求。

3. 计算效率

扩散模型需要数十到数百步采样才能生成一张图像。如何加速？蒸馏、一致性模型、流匹配（Flow Matching）等新方向正在探索。

4. 评估困难

如何衡量生成图像的好坏？FID、IS 等自动指标与人类感知并不完全一致。美观度、语义一致性、多样性难以同时量化。

交互测验

1. 以下哪个场景最适合使用 GAN？

A. 生成高质量的人脸肖像，要求速度快
B. 根据一段详细的小说描述生成插图
C. 生成训练数据中没有的新动物物种
D. 对生成的图像进行精细的局部编辑

2. 扩散模型的"前向过程"是指什么？

A. 从噪声中逐步生成图像的过程
B. 给图像逐步添加噪声直到变成纯噪声的过程
C. 模型学习去噪的训练过程
D. 用户输入提示词到模型生成图像的流程

3. VAE 的核心优势是什么？

A. 生成速度最快
B. 生成质量最高
C. 训练稳定且有结构良好的隐空间
D. 最适合文本条件生成

本课小结

视觉生成是让机器创造新视觉内容的领域，核心是学习数据分布并从中采样
四大范式：GAN（对抗博弈）、VAE（概率编码）、扩散模型（逐步去噪）、自回归（序列预测）
当前主流是扩散模型，但每种范式都有其适用场景
领域仍面临质量-多样性权衡、可控性、效率、评估等挑战

下一步

下一课我们将深入VAE 与概率生成基础——理解隐变量模型的核心思想，这是现代生成模型（包括扩散模型）的理论基石。

💬 有问题？ 作为你的教学助手，我可以帮你澄清任何概念。请随时提问！比如：

"GAN 的模式坍缩能再详细解释一下吗？"
"扩散模型和去噪自编码器有什么区别？"
"为什么 VAE 生成的图像比较模糊？"

第一课：视觉生成全景图

为什么学习视觉生成？

什么是视觉生成？

四大核心范式

1. 生成对抗网络 (GAN)

2. 变分自编码器 (VAE)

3. 扩散模型 (Diffusion Model)

4. 自回归模型 (Autoregressive)

发展历程时间线

核心挑战

1. 质量 vs 多样性的权衡

2. 可控性

3. 计算效率

4. 评估困难

交互测验

本课小结

推荐资源

必读：直观理解扩散模型

选读：生成模型综述

下一步

第一课：视觉生成全景图

为什么学习视觉生成？

什么是视觉生成？

四大核心范式

1. 生成对抗网络 (GAN)

2. 变分自编码器 (VAE)

3. 扩散模型 (Diffusion Model)

4. 自回归模型 (Autoregressive)

发展历程时间线

核心挑战

1. 质量 vs 多样性 的权衡

2. 可控性

3. 计算效率

4. 评估困难

交互测验

本课小结

推荐资源

必读：直观理解扩散模型

选读：生成模型综述

下一步

1. 质量 vs 多样性的权衡