0.4秒で4D自動運転シーンを再構築、DGGTがポーズフリーで性能50%向上
清华大学智能产业研究院(AIR)の趙昊准教授らの研究チームが、小米汽车と共同で、大型動的ドライビングシーン向けの「ポーズフリー」前馈型4D高精度再構成フレームワーク「DGGT(Driving Gaussian Grounded Transformer)」を発表した。本技術は、従来のカメラの姿勢推定や短時間窓に依存する手法を脱却し、稀な未標定画像から長時間の動的シーンを0.4秒で再構成可能。その性能は、既存のSOTA手法STORMと比較して、主要な感知指標で50%以上向上し、Waymoデータセットで訓練したモデルがnuScenesやArgoverse2など他データセットにゼロショットで汎化する点でも顕著な成果を示した。 DGGTの核となるのは、一度の前向き処理でカメラ姿勢、深度、動的インスタンス、3Dガウス表現を同時に生成する点。これにより、シーンの編集やシミュレーションに直接活用可能な「可編集4Dシーンアセット」が生成可能。また、時間経過に伴う静的領域の外観変化(例:日差しの移動、影の変化)をモデリングする「Lifespan Head」を導入。消去実験ではPSNRが3.2dB低下し、時空間の一貫性が著しく損なわれることを確認。さらに、動的物体の時系列対応を学習する「Motion Head」により、物体の移動に伴うブレや偽影を大幅に抑制。3Dガウス層でのインスタンス単位の編集(車両の追加・削除・移動)と、単ステップの拡散精修を組み合わせることで、自然な合成結果が得られ、実用性が高まっている。 一方、同研究院の劉洋教授チームは、多模態大規模モデル(MLLM)の「真の理解力」を検証する新環境「EscapeCraft」を発表。3D密室脱出シナリオでGPT-4oを含むモデルを評価した結果、門が見えても周囲を回り続ける、鍵を拾っても使えない、沙发を「暗格があるかも」として掴みにいくなど、視覚認識と意思決定の乖離が顕著に現れた。これは「見ている=理解している」という前提の限界を示し、AIの「見かけの理解」は依然としてシステム的な課題を抱えていることを裏付けている。 DGGTは、自動運転のシミュレーション・データ合成・評価基盤としての実用性を備え、AIによるシーン理解と再構成の新たな水準を示している。
