Command Palette
Search for a command to run...

要約
最近のドライビング・ワールドモデルに関する進展により、高品質なRGB動画やマルチモーダル動画の制御可能生成が可能になった。従来の手法は、生成品質や制御性に関連する指標に主に注目しているが、自動運転の性能にとって極めて重要な下流の認識タスクの評価をしばしば無視している。従来のアプローチは、通常、合成データ上で事前学習を行い、その後実データ上で微調整(fine-tuning)する戦略を採用しており、ベースライン(実データのみ)と比較して学習エポック数が2倍になる。実際にベースラインのエポック数を2倍にした場合、合成データの効果は顕著に薄れる。合成データの有効性を包括的に示すため、本研究では、下流の認識タスクの性能向上を目的とした、新しい合成データ生成フレームワーク「Dream4Drive」を提案する。Dream4Driveは、入力動画を複数の3Dに意識したガイダンスマップに分解し、そのマップ上に3Dアセットをレンダリングする。その後、ドライビング・ワールドモデルを微調整して、編集済みの多視点写実的動画を生成する。この動画は、下流の認識モデルの学習に活用可能である。Dream4Driveは、スケールの大きな多視点コア・ケース(corner cases)の生成において、従来にない柔軟性を実現し、自動運転におけるコア・ケース認識性能を顕著に向上させる。今後の研究を促進するため、本研究では、ドライビングシナリオに代表的なカテゴリをカバーする大規模な3Dアセットデータセット「DriveObj3D」も提供する。このデータセットは、多様な3Dに意識した動画編集を可能にする。広範な実験により、Dream4Driveがさまざまな学習エポック数の下で、下流の認識モデルの性能を効果的に向上させることを示した。プロジェクトページ: https://wm-research.github.io/Dream4Drive/