Command Palette
Search for a command to run...
Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

要約
視覚言語モデル(Vision-Language Models: VLMs)の進歩により、自律走行分野でのその強力な推論能力の活用に対する関心が高まっています。しかし、これらの能力を2次元から完全な3次元理解へと拡張することは、実世界応用において重要な課題となっています。この課題に対処するため、我々はOmniDriveという包括的な視覚言語データセットを提案します。このデータセットは、反事実推論を通じてエージェントモデルを3次元走行タスクと合わせることで、意思決定を強化します。これは、潜在的なシナリオとその結果を評価することで人間の運転手が代替行動を考えるのと似ています。我々の反事実に基づく合成データアノテーションプロセスは、大規模かつ高品質なデータセットを生成し、計画軌道と言語ベースの推論をつなぐより密な監督信号を提供します。さらに、視覚言語の整合性と3次元認識の重要性を評価するために、Omni-LおよびOmni-Qという2つの先進的なOmniDrive-Eージェントフレームワークを探求しました。これらのフレームワークは、効果的なLLM-エージェント設計に関する重要な洞察を明らかにしています。DriveLM Q&AベンチマークやnuScenesオープンループ計画における大幅な改善は、我々のデータセットと手法の有効性を示しています。
コードリポジトリ
nvlabs/omnidrive
公式
pytorch
GitHubで言及