第一课:视觉生成全景图

视觉生成系列课程 · 建立领域地图

为什么学习视觉生成?

想象你对着电脑描述"一只穿着宇航服的柴犬在月球上弹吉他",几秒钟后,一幅精美的图像出现在屏幕上。这不是魔法,而是视觉生成模型的能力。

从 2014 年 GAN 的问世,到 2020 年扩散模型的崛起,再到今天 Midjourney、DALL·E、Stable Diffusion 等工具的普及,视觉生成已经成为人工智能最引人注目的领域之一。无论你是研究者还是从业者,理解这个领域的核心原理都将为你打开新的可能性。

本课目标:建立视觉生成的"认知地图"——了解领域的发展脉络、核心范式和关键问题,为后续深入学习打下基础。

什么是视觉生成?

视觉生成(Visual Generation)是计算机视觉的一个子领域,研究如何让机器创造出新的视觉内容(图像、视频、3D 等)。与识别任务(判断图片里有什么)不同,生成任务要求模型从零创造——或者基于某种条件(如文本描述)来创造。

"生成模型的本质是学习数据的概率分布,然后从中采样新的样本。"

简单来说,生成模型试图回答这个问题:真实世界中的图像是什么样的?一旦模型"理解"了真实图像的规律,它就能创造出看起来也像是真实世界产物的图像。

四大核心范式

视觉生成领域经历了多次范式转移。目前主流的方法可归为四大类:

1. 生成对抗网络 (GAN)

2014对抗训练速度快

核心思想:两个人工智能的"博弈"。一个画家(生成器)试图画出逼真的图像,一个鉴赏家(判别器)试图分辨真假。双方在对抗中共同进步。

比喻:就像假币制造者和鉴宝专家的博弈——制造者越来越精,鉴宝者越来越毒,最终假币几乎可以以假乱真。

代表:StyleGAN 系列(人脸生成质量极高)

优缺点:生成速度快(一次前向传播即可),但训练困难,容易出现"只会画猫"的模式坍缩问题。

2. 变分自编码器 (VAE)

2013概率模型隐空间

核心思想:将图像压缩到一个"隐空间"(Latent Space),在这个压缩的空间中进行操作。VAE 不仅学习压缩,还学习隐空间中的概率分布。

比喻:想象一个超级高效的"图像 ZIP 压缩器",但它不仅能压缩/解压,还能在压缩后的空间里做数学运算,生成全新的图像。

代表:VQ-VAE(离散版本,被 DALL·E 采用)

优缺点:训练稳定,隐空间结构良好(可以做插值),但生成质量通常不如 GAN 锐利。

3. 扩散模型 (Diffusion Model)

2020+当前主流高质量

核心思想:通过两个过程工作——先逐步给图像加噪声直到变成纯雪花屏(前向),再学习如何一步步去噪恢复图像(反向)。生成时,从纯噪声出发,经过多步去噪得到新图像。

比喻:就像雕塑家面对一块大理石,一点点去除多余部分,最终 revealing 出雕像。或者像照片显影——从空白的相纸上逐渐显现出图像。

代表:Stable Diffusion、DALL·E 2、Imagen

优缺点:生成质量极高,训练稳定,模式覆盖全面。但需要多步采样,生成速度较慢。

4. 自回归模型 (Autoregressive)

2020+序列生成高分辨率

核心思想:将图像看作一个像素(或图像块)的序列,像 GPT 生成文本一样,一个像素一个像素地生成图像。通常先使用 VQ-VAE 将图像转为离散 token,再用 Transformer 预测序列。

比喻:像画家一笔一笔地作画,每一笔都基于已经画好的部分。或者像填字游戏,逐个格子确定。

代表:DALL·E (v1)、Parti、ImageGPT

优缺点:可以生成非常高分辨率的图像,擅长复杂构图。但生成速度慢(要逐个 token),且早期质量不如扩散模型。

发展历程时间线

2013-2014 · 奠基期

VAEGAN 相继问世,开启了神经网络生成图像的时代。GAN 迅速成为主流,产生了大量变体。

2018-2019 · 突破期

StyleGAN 发布,GAN 生成的人脸几乎无法与真人区分。同时,BERT/GPT 展示了 Transformer 在序列建模上的强大能力。

2020-2021 · 转折期

DDPM 证明扩散模型可以生成高质量图像。DALL·E 展示了文本到图像的可能性。CLIP 建立了文本和图像的桥梁。

2022 · 爆发期

Stable Diffusion 开源,DALL·E 2Midjourney 向公众开放,文本到图像生成进入大众视野。

2023-2024 · 成熟期

ControlNet 实现精细控制,SDXL 提升分辨率,Flux 等新一代模型在质量上逼近商业产品。视频生成(Sora)成为新热点。

核心挑战

尽管视觉生成取得了惊人进展,但仍面临几个根本性挑战:

1. 质量 vs 多样性 的权衡

GAN 生成质量高但容易模式坍缩(缺乏多样性);扩散模型覆盖全面但需要多步采样。如何在两者之间取得平衡仍是研究热点。

2. 可控性

如何让模型精确遵循用户的意图?从文本描述到空间布局、风格、姿态的精细控制,是工业应用的核心需求。

3. 计算效率

扩散模型需要数十到数百步采样才能生成一张图像。如何加速?蒸馏、一致性模型、流匹配(Flow Matching)等新方向正在探索。

4. 评估困难

如何衡量生成图像的好坏?FID、IS 等自动指标与人类感知并不完全一致。美观度、语义一致性、多样性难以同时量化。

交互测验

1. 以下哪个场景最适合使用 GAN?
2. 扩散模型的"前向过程"是指什么?
3. VAE 的核心优势是什么?

本课小结

推荐资源

必读:直观理解扩散模型

Lil'Log: Diffusion Models — 最清晰易懂的扩散模型讲解,配合大量可视化图示。

🔗 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

选读:生成模型综述

Stanford CS236: Deep Generative Models — 系统性课程,涵盖所有主要范式。

🔗 https://deepgenerativemodels.github.io/

下一步

下一课我们将深入VAE 与概率生成基础——理解隐变量模型的核心思想,这是现代生成模型(包括扩散模型)的理论基石。

💬 有问题? 作为你的教学助手,我可以帮你澄清任何概念。请随时提问!比如: