2ヶ月前

CarLLaVA: カメラのみを使用したクローズドループ走行のためのビジョン言語モデル

Katrin Renz; Long Chen; Ana-Maria Marcu; Jan Hünermann; Benoit Hanotte; Alice Karnsund; Jamie Shotton; Elahe Arani; Oleg Sinavski
CarLLaVA: カメラのみを使用したクローズドループ走行のためのビジョン言語モデル
要約

本技術報告では、CARLA 自動運転チャレンジ 2.0 のために開発された自動運転向けビジョン言語モデル(VLM)である CarLLaVA を紹介します。CarLLaVA は、LLaVA VLM のビジョンエンコーダと LLaMA アーキテクチャをバックボーンとして使用しており、カメラ入力のみで複雑なラベルや高価なデータなしに最先端の閉ループ運転性能を達成しています。さらに、運転出力とともに言語コメントの予測に関する初期結果も示します。CarLLaVA は、経路予測とウェイポイントの半分離出力表現を使用することで、経路がより優れた横方向制御を提供し、ウェイポイントがより優れた縦方向制御を提供するという両方の利点を得ています。私たちは、大規模な運転データセットでの学習において簡単で自明なデータに計算リソースを浪費することなく効率的な学習レシピを提案します。CarLLaVA は CARLA 自動運転チャレンジ 2.0 のセンサートラックで 1 位となり、従来の最先端技術を 458% 上回り、同時期の最良提出も 32.6% 上回る性能を達成しました。

CarLLaVA: カメラのみを使用したクローズドループ走行のためのビジョン言語モデル | 最新論文 | HyperAI超神経