INSPATIO-WORLD 核心架构快速参考
| 组件 | 隐式时空缓存 | 显式空间约束 |
|---|---|---|
| 功能 | 维护全局时空一致性 | 提供精确相机控制 |
| 机制 | KV缓存 + 固定位置编码 | 深度估计 + 6-DoF位姿 + Warped Render |
| 解决的问题 | 长程漂移、内容遗忘 | 相机控制不精确、几何扭曲 |
| 关键创新 | 分块可微重计算 | 遮挡掩码引导生成 |
自回归生成: P(F_t | F_{<t}, C) — 当前帧依赖于历史帧和相机位姿
Warped Render: W(F_ref, D, P) — 参考帧 + 深度图 + 目标位姿 → 新视角图像
扩散条件: ε_θ(x_t, t, W, M) — 噪声预测网络,以Warped Render W和掩码M为条件
| 指标 | 数值 | 说明 |
|---|---|---|
| 实时帧率 (H-series GPU) | 24 FPS | 1.3B模型 |
| 实时帧率 (RTX 4090) | 10 FPS | 消费级显卡 |
| 长序列测试 | 150+ 帧 | 轨迹误差和分布指标领先 |
🔗 相关课程:课程 1:STAR 架构核心机制
📄 论文:arXiv:2604.07209