Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

一篇关于语言指代和开放词汇理解的 3DGS 论文，核心思路是把 CLIP 对齐语言特征直接注册到高斯上，实现可指代的 3D 场景理解。

February 2025Scene UnderstandingarXiv:2502.16652

详细解读

Dr. Splat 解决的是 3DGS 的语言可寻址问题。原始 splat 只知道颜色、透明度和形状，不知道哪个基元对应“椅子”“窗户”或一段开放词汇描述。论文把 CLIP 对齐的语言特征直接注册到高斯上。

对每个图像像素，方法找到射线上贡献占主导的高斯，并把语言特征绑定到这些基元。为了避免高维语言嵌入让模型体积暴涨，它使用 product quantization 压缩特征空间，使语义选择和分割更实际。

这和只渲染 2D feature map 的方法不同：语言特征直接存在 3D 高斯里，场景因此更像一个可查询的 3D 对象数据库。文本嵌入可以和高斯特征比较，生成对象 mask 或指代表达结果。

它对编辑器、机器人和 AR 都有价值，因为用户天然会用语言指对象。局限来自 CLIP 监督和可见性：小物体、相似类别、严重遮挡和开放世界歧义仍然难。

Dr. Splat 关注语言引导的 3DGS 理解，不依赖只在渲染图上的 feature map，而是把 CLIP 对齐特征直接注册到射线命中的主导高斯上。

它使用 product quantization 压缩语言特征，使开放词汇选择和分割更适合实际场景。