HyperAIHyperAI

Command Palette

Search for a command to run...

OmniDrive: 自動運転のための包括的な視覚言語データセットと反実仮想推論

Shihao Wang Zhiding Yu Xiaohui Jiang Shiyi Lan Min Shi Nadine Chang Jan Kautz Ying Li Jose M. Alvarez

概要

視覚言語モデル(Vision-Language Models: VLMs)の進歩により、自律走行分野でのその強力な推論能力の活用に対する関心が高まっています。しかし、これらの能力を2次元から完全な3次元理解へと拡張することは、実世界応用において重要な課題となっています。この課題に対処するため、我々はOmniDriveという包括的な視覚言語データセットを提案します。このデータセットは、反事実推論を通じてエージェントモデルを3次元走行タスクと合わせることで、意思決定を強化します。これは、潜在的なシナリオとその結果を評価することで人間の運転手が代替行動を考えるのと似ています。我々の反事実に基づく合成データアノテーションプロセスは、大規模かつ高品質なデータセットを生成し、計画軌道と言語ベースの推論をつなぐより密な監督信号を提供します。さらに、視覚言語の整合性と3次元認識の重要性を評価するために、Omni-LおよびOmni-Qという2つの先進的なOmniDrive-Eージェントフレームワークを探求しました。これらのフレームワークは、効果的なLLM-エージェント設計に関する重要な洞察を明らかにしています。DriveLM Q&AベンチマークやnuScenesオープンループ計画における大幅な改善は、我々のデータセットと手法の有効性を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています