想象你对着电脑描述"一只穿着宇航服的柴犬在月球上弹吉他",几秒钟后,一幅精美的图像出现在屏幕上。这不是魔法,而是视觉生成模型的能力。
从 2014 年 GAN 的问世,到 2020 年扩散模型的崛起,再到今天 Midjourney、DALL·E、Stable Diffusion 等工具的普及,视觉生成已经成为人工智能最引人注目的领域之一。无论你是研究者还是从业者,理解这个领域的核心原理都将为你打开新的可能性。
视觉生成(Visual Generation)是计算机视觉的一个子领域,研究如何让机器创造出新的视觉内容(图像、视频、3D 等)。与识别任务(判断图片里有什么)不同,生成任务要求模型从零创造——或者基于某种条件(如文本描述)来创造。
"生成模型的本质是学习数据的概率分布,然后从中采样新的样本。"
简单来说,生成模型试图回答这个问题:真实世界中的图像是什么样的?一旦模型"理解"了真实图像的规律,它就能创造出看起来也像是真实世界产物的图像。
视觉生成领域经历了多次范式转移。目前主流的方法可归为四大类:
2014对抗训练速度快
核心思想:两个人工智能的"博弈"。一个画家(生成器)试图画出逼真的图像,一个鉴赏家(判别器)试图分辨真假。双方在对抗中共同进步。
比喻:就像假币制造者和鉴宝专家的博弈——制造者越来越精,鉴宝者越来越毒,最终假币几乎可以以假乱真。
代表:StyleGAN 系列(人脸生成质量极高)
优缺点:生成速度快(一次前向传播即可),但训练困难,容易出现"只会画猫"的模式坍缩问题。
2013概率模型隐空间
核心思想:将图像压缩到一个"隐空间"(Latent Space),在这个压缩的空间中进行操作。VAE 不仅学习压缩,还学习隐空间中的概率分布。
比喻:想象一个超级高效的"图像 ZIP 压缩器",但它不仅能压缩/解压,还能在压缩后的空间里做数学运算,生成全新的图像。
代表:VQ-VAE(离散版本,被 DALL·E 采用)
优缺点:训练稳定,隐空间结构良好(可以做插值),但生成质量通常不如 GAN 锐利。
2020+当前主流高质量
核心思想:通过两个过程工作——先逐步给图像加噪声直到变成纯雪花屏(前向),再学习如何一步步去噪恢复图像(反向)。生成时,从纯噪声出发,经过多步去噪得到新图像。
比喻:就像雕塑家面对一块大理石,一点点去除多余部分,最终 revealing 出雕像。或者像照片显影——从空白的相纸上逐渐显现出图像。
代表:Stable Diffusion、DALL·E 2、Imagen
优缺点:生成质量极高,训练稳定,模式覆盖全面。但需要多步采样,生成速度较慢。
2020+序列生成高分辨率
核心思想:将图像看作一个像素(或图像块)的序列,像 GPT 生成文本一样,一个像素一个像素地生成图像。通常先使用 VQ-VAE 将图像转为离散 token,再用 Transformer 预测序列。
比喻:像画家一笔一笔地作画,每一笔都基于已经画好的部分。或者像填字游戏,逐个格子确定。
代表:DALL·E (v1)、Parti、ImageGPT
优缺点:可以生成非常高分辨率的图像,擅长复杂构图。但生成速度慢(要逐个 token),且早期质量不如扩散模型。
VAE 和 GAN 相继问世,开启了神经网络生成图像的时代。GAN 迅速成为主流,产生了大量变体。
StyleGAN 发布,GAN 生成的人脸几乎无法与真人区分。同时,BERT/GPT 展示了 Transformer 在序列建模上的强大能力。
DDPM 证明扩散模型可以生成高质量图像。DALL·E 展示了文本到图像的可能性。CLIP 建立了文本和图像的桥梁。
Stable Diffusion 开源,DALL·E 2 和 Midjourney 向公众开放,文本到图像生成进入大众视野。
ControlNet 实现精细控制,SDXL 提升分辨率,Flux 等新一代模型在质量上逼近商业产品。视频生成(Sora)成为新热点。
尽管视觉生成取得了惊人进展,但仍面临几个根本性挑战:
GAN 生成质量高但容易模式坍缩(缺乏多样性);扩散模型覆盖全面但需要多步采样。如何在两者之间取得平衡仍是研究热点。
如何让模型精确遵循用户的意图?从文本描述到空间布局、风格、姿态的精细控制,是工业应用的核心需求。
扩散模型需要数十到数百步采样才能生成一张图像。如何加速?蒸馏、一致性模型、流匹配(Flow Matching)等新方向正在探索。
如何衡量生成图像的好坏?FID、IS 等自动指标与人类感知并不完全一致。美观度、语义一致性、多样性难以同时量化。
Lil'Log: Diffusion Models — 最清晰易懂的扩散模型讲解,配合大量可视化图示。
🔗 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
Stanford CS236: Deep Generative Models — 系统性课程,涵盖所有主要范式。
下一课我们将深入VAE 与概率生成基础——理解隐变量模型的核心思想,这是现代生成模型(包括扩散模型)的理论基石。