详细解读
这篇论文的重点不是从真实照片重建场景,而是从文本或图像提示生成 3D 内容。它利用扩散模型提供的 2D 先验,让高斯表示在多视角渲染约束下快速收敛出一个可看的物体。
3D 高斯在这里的价值是优化速度。相比 NeRF 式体渲染,高斯能更快渲染和更新,因此适合作为生成流程中的中间表示。用户可以更快看到形状是否正确,再进入后续细化阶段。
论文后半段会把高斯结果转成网格,并对几何和纹理进一步优化。这说明生成式 3D 工作流里,splat 不一定是最终交付格式,也可以是快速探索和初始化工具。
它的局限也很清楚:生成质量受扩散先验和提示词影响,几何可能不完整,背面和细节容易依赖模型猜测。工程上应把它看作快速生成候选资产的方法,而不是严谨重建工具。