L3 词汇表 — 生成模型与 3D 内容生成

本词汇表汇总 L3: NeRF & GS 与生成模型的关联中引入的全部关键术语。每个条目包含：中文名称、英文原名、简明定义、以及与生成式 3D 上下文的关联说明。建议打印或在学习时随时查阅。

条件生成 Conditional Generation 核心概念

给定额外条件（如文本、类别标签、参考图像）控制生成结果的过程。条件信息通过编码器注入生成模型，引导输出朝期望方向偏移。

Text-to-3D 中的「文本」就是条件。Stable Diffusion 通过 Cross-Attention 机制将文本嵌入注入 U-Net，使去噪方向受语义控制。没有条件时，模型只能生成训练数据分布的「平均」样本。

Diffusion 模型 Diffusion Model 生成模型

一类生成模型，通过逐步去噪从高斯分布中采样生成数据。训练时学习逆转一个前向加噪过程，推理时从纯噪声出发经多步去噪得到清晰样本。

在 3D 生成中，Diffusion 模型通常作为「评委」而非「生成器」：它评估 NeRF/3DGS 渲染的图像是否「像真的」，并通过 SDS 提供梯度反馈。Stable Diffusion、DALL-E、Imagen 都是代表性的文本条件 Diffusion 模型。

蒸馏 Distillation 训练技术

将一个大模型（教师）的知识迁移到一个小模型（学生）的过程。在 SDS 中，预训练 Diffusion 模型的「审美知识」被蒸馏到 3D 表示中。

传统知识蒸馏用教师模型的 softmax 输出作为软标签。SDS 更巧妙：它利用 Diffusion 模型的分数函数（数据密度梯度）作为监督信号，不需要成对的 3D-2D 数据即可训练。

DreamFusion DreamFusion 里程碑工作

Google Research 于 2022 年提出的首个成功实现 Text-to-3D 的方法。核心创新是 SDS（Score Distillation Sampling），用预训练文本条件 Diffusion 模型指导 NeRF 优化。

DreamFusion 证明了：无需 3D 训练数据，仅借助强大的 2D Diffusion 模型就能生成合理的 3D 对象。它开启了「生成式 3D」这一研究方向，后续大量工作（Magic3D、Fantasia3D、DreamGaussian）都在其 SDS 框架上改进。

GaussianDreamer / DreamGaussian GaussianDreamer / DreamGaussian 方法

将 DreamFusion 的 SDS 框架与 3D Gaussian Splatting 结合的工作。用 3DGS 替代 NeRF 作为可学习的 3D 表示，获得 10 倍以上的训练加速。

核心洞察：SDS 框架与具体 3D 表示解耦。只要满足「可微分渲染 + 多视角一致 + 连续参数空间」，任意表示都可充当 SDS 的「学生」。3DGS 的速度优势和编辑便利性使其成为当前 Text-to-3D 的首选表示。

Image-to-3D Image-to-3D 任务类型

从单张或多张输入图像生成可自由视角观察的 3D 模型的任务。与 Text-to-3D 的区别在于输入是图像而非文本描述。

Zero123 系列是 Image-to-3D 的代表方法：先训练一个「单图生多视角」的扩散模型，再用生成的多视角图像监督训练 NeRF/3DGS。相比 SDS，Zero123 范式生成的几何一致性更好，但需要额外的多视角模型训练。

多视角一致性 Multi-view Consistency 关键约束

3D 表示从不同视角渲染出的图像必须在几何和外观上相互一致。同一表面在不同视角下不应出现矛盾的形状或颜色。

这是 3D 表示能被 SDS 「老师」有效指导的前提。NeRF 和 3DGS 天然满足多视角一致性，因为它们共享同一组参数描述整个场景。纯 2D 生成模型（如直接生成多视角图像序列）缺乏这一约束，容易出现「正面像猫、背面像狗」的崩溃。

噪声时间步 Noise Timestep, t Diffusion 概念

Diffusion 模型中控制噪声水平的整数索引，通常从 T（纯噪声）到 0（清晰图像）。t 越大，图像被破坏得越严重；t 越小，去噪任务越精细。

在 SDS 中，t 是随机采样的。较大的 t 提供「粗略结构」的指导（如「这应该是一只猫」），较小的 t 提供「精细纹理」的指导（如「毛发应该朝这个方向」）。合理的 t 采样策略对生成质量至关重要。

过饱和 Oversaturation SDS 缺陷

SDS 训练常见的视觉缺陷：生成的 3D 模型颜色过于鲜艳、对比度过高，呈现「塑料感」或「虚假」的外观。

根本原因是 Diffusion 模型对噪声水平敏感，SDS 的梯度在高噪声区域过于激进。缓解方案包括：多阶段优化（先用 SDS 粗调、再用真实渲染监督精修）、引入法线贴图约束、使用 VSD（Variational Score Distillation）等改进的蒸馏方法。

分数函数 Score Function Diffusion 核心

数据分布对数概率密度对输入的梯度。指向「数据密度更高」的方向——即「更像真实样本」的方向。

Diffusion 模型本质上是在学习分数函数。SDS 利用的就是这个梯度方向：当 NeRF 渲染的图像「不太像真的」时，分数函数指向「更像真的」的方向，这个方向通过链式法则回传给 3D 参数。不需要目标图像，只需要「改进方向」。

Score Distillation Sampling SDS 核心技术

DreamFusion 提出的训练方法：将 3D 表示渲染为 2D 图像，加噪后送入预训练 Diffusion 模型，利用去噪梯度反向优化 3D 参数。无需 3D 训练数据即可生成三维内容。

SDS 是「生成式 3D」的基石技术。它的精妙之处在于：把「没有 3D 数据」这一劣势转化为「借用 2D 生成模型」的优势。只要 Diffusion 模型足够强大（见过数十亿张真实图片），它就能充当一个完美的「无数据监督者」。

Text-to-3D Text-to-3D 任务类型

根据自然语言描述生成可交互的三维模型的任务。输入如「一只穿着宇航服的猫」，输出是可从任意角度观察的 3D 对象。

Text-to-3D 的难点在于：3D 数据稀缺导致无法直接训练生成模型。SDS 范式通过「2D Diffusion 指导 3D 优化」绕过了这一瓶颈。当前主流方法包括 DreamFusion（NeRF + SDS）、DreamGaussian（3DGS + SDS）、以及 Magic3D（多阶段 coarse-to-fine）。

Zero123 Zero123 方法/模型

一种专门训练的单图到多视角图像的扩散模型。输入一张参考图和相对视角（旋转角度），输出该视角下的合成图像。

Zero123 是 Image-to-3D 的核心组件。它不直接生成 3D，而是「补全」缺失的视角。生成的虚拟视角图像可作为监督信号训练 NeRF/3DGS。相比 SDS，Zero123 范式的几何一致性更好，但需要额外的多视角模型训练和更多的计算资源。

速查对照表

术语	一句话记忆
Diffusion 模型	从噪声中「雕刻」出图像的去噪网络
分数函数	指向「更像真的」方向的梯度
SDS	把 Diffusion 的 2D 知识「蒸馏」到 3D 中
DreamFusion	首个 Text-to-3D 方法，NeRF + SDS
DreamGaussian	3DGS 版 DreamFusion，快 10 倍
Text-to-3D	文字描述 → 可旋转的 3D 模型
Image-to-3D	单张图片 → 可旋转的 3D 模型
Zero123	单图「脑补」其他视角的扩散模型
过饱和	SDS 生成的「塑料感」颜色失真
多视角一致性	3D 模型从任何角度看都不能自相矛盾

使用建议

本词汇表应与 L3 课程配合使用。生成式 3D 涉及 Diffusion 模型和 3D 表示两个领域的交叉，建议先确保对 Diffusion 基础有直觉理解，再通过本词汇表建立领域特有的术语映射。

L3 词汇表：生成模型与 3D 内容生成

C

D

G

I

M

N

O

S

T

Z

速查对照表