4ヶ月前

OmniDrive: 自動運転のための包括的な視覚言語データセットと反実仮想推論

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

要約

視覚言語モデル（Vision-Language Models: VLMs）の進歩により、自律走行分野でのその強力な推論能力の活用に対する関心が高まっています。しかし、これらの能力を2次元から完全な3次元理解へと拡張することは、実世界応用において重要な課題となっています。この課題に対処するため、我々はOmniDriveという包括的な視覚言語データセットを提案します。このデータセットは、反事実推論を通じてエージェントモデルを3次元走行タスクと合わせることで、意思決定を強化します。これは、潜在的なシナリオとその結果を評価することで人間の運転手が代替行動を考えるのと似ています。我々の反事実に基づく合成データアノテーションプロセスは、大規模かつ高品質なデータセットを生成し、計画軌道と言語ベースの推論をつなぐより密な監督信号を提供します。さらに、視覚言語の整合性と3次元認識の重要性を評価するために、Omni-LおよびOmni-Qという2つの先進的なOmniDrive-Eージェントフレームワークを探求しました。これらのフレームワークは、効果的なLLM-エージェント設計に関する重要な洞察を明らかにしています。DriveLM Q&AベンチマークやnuScenesオープンループ計画における大幅な改善は、我々のデータセットと手法の有効性を示しています。

コードリポジトリ

nvlabs/omnidrive

公式

pytorch

GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

OmniDrive: 自動運転のための包括的な視覚言語データセットと反実仮想推論

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

要約

コードリポジトリ

AI で AI を構築

Hyper Newsletters