参考文档:STAR 架构速查表

INSPATIO-WORLD 核心架构快速参考

术语表

STAR
Spatiotemporal Autoregressive — 时空自回归模型
KV Cache
Key-Value Cache — Transformer中的键值缓存,用于存储历史注意力信息
6-DoF
6 Degrees of Freedom — 六自由度相机位姿(3维旋转 + 3维平移)
Warped Render
重投影渲染图 — 将参考帧投影到新视角的粗略图像
Occlusion Mask
遮挡掩码 — 标记参考帧中不可见、需要生成的区域
JDMD
Joint Distribution Matching Distillation — 联合分布匹配蒸馏

STAR 架构对比

组件 隐式时空缓存 显式空间约束
功能 维护全局时空一致性 提供精确相机控制
机制 KV缓存 + 固定位置编码 深度估计 + 6-DoF位姿 + Warped Render
解决的问题 长程漂移、内容遗忘 相机控制不精确、几何扭曲
关键创新 分块可微重计算 遮挡掩码引导生成

核心公式(概念级)

自回归生成: P(F_t | F_{<t}, C) — 当前帧依赖于历史帧和相机位姿

Warped Render: W(F_ref, D, P) — 参考帧 + 深度图 + 目标位姿 → 新视角图像

扩散条件: ε_θ(x_t, t, W, M) — 噪声预测网络,以Warped Render W和掩码M为条件

性能指标

指标 数值 说明
实时帧率 (H-series GPU) 24 FPS 1.3B模型
实时帧率 (RTX 4090) 10 FPS 消费级显卡
长序列测试 150+ 帧 轨迹误差和分布指标领先

🔗 相关课程:课程 1:STAR 架构核心机制

📄 论文:arXiv:2604.07209