详细解读
Dr. Splat 解决的是 3DGS 的语言可寻址问题。原始 splat 只知道颜色、透明度和形状,不知道哪个基元对应“椅子”“窗户”或一段开放词汇描述。论文把 CLIP 对齐的语言特征直接注册到高斯上。
对每个图像像素,方法找到射线上贡献占主导的高斯,并把语言特征绑定到这些基元。为了避免高维语言嵌入让模型体积暴涨,它使用 product quantization 压缩特征空间,使语义选择和分割更实际。
这和只渲染 2D feature map 的方法不同:语言特征直接存在 3D 高斯里,场景因此更像一个可查询的 3D 对象数据库。文本嵌入可以和高斯特征比较,生成对象 mask 或指代表达结果。
它对编辑器、机器人和 AR 都有价值,因为用户天然会用语言指对象。局限来自 CLIP 监督和可见性:小物体、相似类别、严重遮挡和开放世界歧义仍然难。