研究论文

Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration

一篇关于语言指代和开放词汇理解的 3DGS 论文,核心思路是把 CLIP 对齐语言特征直接注册到高斯上,实现可指代的 3D 场景理解。

February 2025Scene UnderstandingarXiv:2502.16652

详细解读

Dr. Splat 解决的是 3DGS 的语言可寻址问题。原始 splat 只知道颜色、透明度和形状,不知道哪个基元对应“椅子”“窗户”或一段开放词汇描述。论文把 CLIP 对齐的语言特征直接注册到高斯上。

对每个图像像素,方法找到射线上贡献占主导的高斯,并把语言特征绑定到这些基元。为了避免高维语言嵌入让模型体积暴涨,它使用 product quantization 压缩特征空间,使语义选择和分割更实际。

这和只渲染 2D feature map 的方法不同:语言特征直接存在 3D 高斯里,场景因此更像一个可查询的 3D 对象数据库。文本嵌入可以和高斯特征比较,生成对象 mask 或指代表达结果。

它对编辑器、机器人和 AR 都有价值,因为用户天然会用语言指对象。局限来自 CLIP 监督和可见性:小物体、相似类别、严重遮挡和开放世界歧义仍然难。

论文解决了什么

Dr. Splat 关注语言引导的 3DGS 理解,不依赖只在渲染图上的 feature map,而是把 CLIP 对齐特征直接注册到射线命中的主导高斯上。

它使用 product quantization 压缩语言特征,使开放词汇选择和分割更适合实际场景。

核心思路

  • 把 CLIP 对齐语言特征直接关联到 3D 高斯基元。
  • 避免为语言特征做沉重的逐场景渲染优化。
  • 面向 3DGS 场景的语义分割、对象定位和对象选择。

为什么重要

  • 它代表 2025 年从视觉重建走向语义和语言感知 splat 的趋势。
  • 开放词汇选择对编辑器很重要,用户需要说出或点出目标对象。
  • 紧凑特征设计很关键,因为朴素语言嵌入会让高斯场景变重。

适合阅读的人

  • 你在为 splat 场景构建搜索、选择或语义工具。
  • 你想连接 CLIP 或视觉语言模型与 3DGS。
  • 你关心开放词汇理解,而不是固定标签分类。

局限与注意点

  • 语言 grounding 依赖 2D 视觉语言嵌入质量和偏差。
  • 小物体、遮挡物体和视觉相似类别仍然困难。
  • 它是语义基础设施,不是完整终端编辑界面。