研究论文

Street Gaussians for Modeling Dynamic Urban Scenes

一篇关于动态城市场景建模的 3DGS 论文,核心思路是显式建模前景对象、背景、语义和运动,用于自动驾驶街景。

January 2024自动驾驶arXiv:2401.01339

详细解读

Street Gaussians 面向自动驾驶街景:世界尺度大、相机运动明显,而且包含静态背景、移动车辆、行人、天空、道路和重复纹理。把整段序列当作一个静态 splat cloud 会直接失败。

论文把背景和前景 actor 分开建模。静态区域可以在场景坐标系中表示,动态对象则需要对象中心的运动和时间相关放置;语义线索帮助判断哪些高斯属于哪个实体,以及它们应该如何移动。

算法上它是一种 factorization。如果每个移动物体都被当作整场景形变的一部分,优化会高度纠缠且低效;给对象自己的高斯集合或变换后,模型能保持 actor 身份,并渲染新的视角和时间。

它对大规模捕获和仿真很有价值,把 3DGS 和驾驶数据的结构对齐。局限是依赖检测、跟踪和标定较好的多相机数据;长距离一致性、稀有动态和复杂遮挡仍然难。

论文解决了什么

Street Gaussians 把 3DGS 适配到自动驾驶场景,这类世界包含大尺度静态背景、移动对象和随时间变化的外观。

它组合前景对象高斯和背景高斯,并加入语义 logits 与动态球谐来处理时间相关外观。

核心思路

  • 把前景动态车辆和背景场景分开。
  • 用显式对象组合编辑和渲染动态街景。
  • 面向大型驾驶基准的快速训练和高 FPS 渲染。

为什么重要

  • 驾驶场景是可扩展动态重建的重要真实测试场。
  • 它展示对象级结构如何让高斯场景更可控。
  • 它连接 3DGS 与自动驾驶仿真、回放和场景编辑。

适合阅读的人

  • 你处理街景视频、自动驾驶数据集或动态户外场景。
  • 你需要带可移动前景对象的结构化场景模型。
  • 你在比较 NeRF 驾驶场景渲染和 Gaussian 方法。

局限与注意点

  • 设置依赖跟踪、语义结构和驾驶场景假设。
  • 它不太直接适用于任意室内捕获或随手手机扫描。
  • 遮挡和复杂运动下的动态对象建模仍然困难。