详细解读
论文最核心的转变,是把稀疏 COLMAP 点云变成可学习的各向异性椭球集合。每个高斯保存位置、透明度、尺度、旋转和球谐颜色系数。训练时,渲染图像与输入照片比较,梯度直接更新这些显式参数,而不是穿过一个大型神经场。
密度控制是另一个关键。模型一开始不知道场景需要多少个基元,因此会反复克隆、分裂和裁剪高斯。误差高或细节不足的位置获得更多基元,透明或无用的基元会被删除。这让表示能从稀疏 SfM 点逐步长成密集视觉场景。
渲染同样是贡献的一部分。方法把 3D 协方差投影到屏幕空间,对高斯做深度排序,并在 GPU 上进行 alpha 合成。它把连续辐射场优化和类似光栅化的实现连接起来,因此高质量新视角合成首次变得足够交互。
局限也来自这种灵活性。图像重建损失并不保证高斯落在干净曲面上,也不保证拓扑、材质和光照分离。后续很多 3DGS 论文,本质上都在修复它留下的问题:几何、压缩、动态、编辑、抗锯齿或稀疏输入。