本词汇表汇总 L3: NeRF & GS 与生成模型的关联 中引入的全部关键术语。每个条目包含:中文名称、英文原名、简明定义、以及与生成式 3D 上下文的关联说明。建议打印或在学习时随时查阅。
给定额外条件(如文本、类别标签、参考图像)控制生成结果的过程。条件信息通过编码器注入生成模型,引导输出朝期望方向偏移。
Text-to-3D 中的「文本」就是条件。Stable Diffusion 通过 Cross-Attention 机制将文本嵌入注入 U-Net,使去噪方向受语义控制。没有条件时,模型只能生成训练数据分布的「平均」样本。
一类生成模型,通过逐步去噪从高斯分布中采样生成数据。训练时学习逆转一个前向加噪过程,推理时从纯噪声出发经多步去噪得到清晰样本。
在 3D 生成中,Diffusion 模型通常作为「评委」而非「生成器」:它评估 NeRF/3DGS 渲染的图像是否「像真的」,并通过 SDS 提供梯度反馈。Stable Diffusion、DALL-E、Imagen 都是代表性的文本条件 Diffusion 模型。
将一个大模型(教师)的知识迁移到一个小模型(学生)的过程。在 SDS 中,预训练 Diffusion 模型的「审美知识」被蒸馏到 3D 表示中。
传统知识蒸馏用教师模型的 softmax 输出作为软标签。SDS 更巧妙:它利用 Diffusion 模型的分数函数(数据密度梯度)作为监督信号,不需要成对的 3D-2D 数据即可训练。
Google Research 于 2022 年提出的首个成功实现 Text-to-3D 的方法。核心创新是 SDS(Score Distillation Sampling),用预训练文本条件 Diffusion 模型指导 NeRF 优化。
DreamFusion 证明了:无需 3D 训练数据,仅借助强大的 2D Diffusion 模型就能生成合理的 3D 对象。它开启了「生成式 3D」这一研究方向,后续大量工作(Magic3D、Fantasia3D、DreamGaussian)都在其 SDS 框架上改进。
将 DreamFusion 的 SDS 框架与 3D Gaussian Splatting 结合的工作。用 3DGS 替代 NeRF 作为可学习的 3D 表示,获得 10 倍以上的训练加速。
核心洞察:SDS 框架与具体 3D 表示解耦。只要满足「可微分渲染 + 多视角一致 + 连续参数空间」,任意表示都可充当 SDS 的「学生」。3DGS 的速度优势和编辑便利性使其成为当前 Text-to-3D 的首选表示。
从单张或多张输入图像生成可自由视角观察的 3D 模型的任务。与 Text-to-3D 的区别在于输入是图像而非文本描述。
Zero123 系列是 Image-to-3D 的代表方法:先训练一个「单图生多视角」的扩散模型,再用生成的多视角图像监督训练 NeRF/3DGS。相比 SDS,Zero123 范式生成的几何一致性更好,但需要额外的多视角模型训练。
3D 表示从不同视角渲染出的图像必须在几何和外观上相互一致。同一表面在不同视角下不应出现矛盾的形状或颜色。
这是 3D 表示能被 SDS 「老师」有效指导的前提。NeRF 和 3DGS 天然满足多视角一致性,因为它们共享同一组参数描述整个场景。纯 2D 生成模型(如直接生成多视角图像序列)缺乏这一约束,容易出现「正面像猫、背面像狗」的崩溃。
Diffusion 模型中控制噪声水平的整数索引,通常从 T(纯噪声)到 0(清晰图像)。t 越大,图像被破坏得越严重;t 越小,去噪任务越精细。
在 SDS 中,t 是随机采样的。较大的 t 提供「粗略结构」的指导(如「这应该是一只猫」),较小的 t 提供「精细纹理」的指导(如「毛发应该朝这个方向」)。合理的 t 采样策略对生成质量至关重要。
SDS 训练常见的视觉缺陷:生成的 3D 模型颜色过于鲜艳、对比度过高,呈现「塑料感」或「虚假」的外观。
根本原因是 Diffusion 模型对噪声水平敏感,SDS 的梯度在高噪声区域过于激进。缓解方案包括:多阶段优化(先用 SDS 粗调、再用真实渲染监督精修)、引入法线贴图约束、使用 VSD(Variational Score Distillation)等改进的蒸馏方法。
数据分布对数概率密度对输入的梯度。指向「数据密度更高」的方向——即「更像真实样本」的方向。
Diffusion 模型本质上是在学习分数函数。SDS 利用的就是这个梯度方向:当 NeRF 渲染的图像「不太像真的」时,分数函数指向「更像真的」的方向,这个方向通过链式法则回传给 3D 参数。不需要目标图像,只需要「改进方向」。
DreamFusion 提出的训练方法:将 3D 表示渲染为 2D 图像,加噪后送入预训练 Diffusion 模型,利用去噪梯度反向优化 3D 参数。无需 3D 训练数据即可生成三维内容。
SDS 是「生成式 3D」的基石技术。它的精妙之处在于:把「没有 3D 数据」这一劣势转化为「借用 2D 生成模型」的优势。只要 Diffusion 模型足够强大(见过数十亿张真实图片),它就能充当一个完美的「无数据监督者」。
根据自然语言描述生成可交互的三维模型的任务。输入如「一只穿着宇航服的猫」,输出是可从任意角度观察的 3D 对象。
Text-to-3D 的难点在于:3D 数据稀缺导致无法直接训练生成模型。SDS 范式通过「2D Diffusion 指导 3D 优化」绕过了这一瓶颈。当前主流方法包括 DreamFusion(NeRF + SDS)、DreamGaussian(3DGS + SDS)、以及 Magic3D(多阶段 coarse-to-fine)。
一种专门训练的单图到多视角图像的扩散模型。输入一张参考图和相对视角(旋转角度),输出该视角下的合成图像。
Zero123 是 Image-to-3D 的核心组件。它不直接生成 3D,而是「补全」缺失的视角。生成的虚拟视角图像可作为监督信号训练 NeRF/3DGS。相比 SDS,Zero123 范式的几何一致性更好,但需要额外的多视角模型训练和更多的计算资源。
| 术语 | 一句话记忆 |
|---|---|
| Diffusion 模型 | 从噪声中「雕刻」出图像的去噪网络 |
| 分数函数 | 指向「更像真的」方向的梯度 |
| SDS | 把 Diffusion 的 2D 知识「蒸馏」到 3D 中 |
| DreamFusion | 首个 Text-to-3D 方法,NeRF + SDS |
| DreamGaussian | 3DGS 版 DreamFusion,快 10 倍 |
| Text-to-3D | 文字描述 → 可旋转的 3D 模型 |
| Image-to-3D | 单张图片 → 可旋转的 3D 模型 |
| Zero123 | 单图「脑补」其他视角的扩散模型 |
| 过饱和 | SDS 生成的「塑料感」颜色失真 |
| 多视角一致性 | 3D 模型从任何角度看都不能自相矛盾 |
本词汇表应与 L3 课程 配合使用。生成式 3D 涉及 Diffusion 模型和 3D 表示两个领域的交叉,建议先确保对 Diffusion 基础有直觉理解,再通过本词汇表建立领域特有的术语映射。
如发现术语定义有误或需要补充,请随时提出。