HyperAIHyperAI

Command Palette

Search for a command to run...

アルパマヨ-R1:長尾領域における汎用的な自動運転のための推論と行動予測の統合

Abstract

模倣学習を用いてエンドツーエンドに訓練されたアーキテクチャは、モデルサイズおよびデータ量の拡大により自動運転技術を進展させてきたが、監視信号が稀で因果理解が制限される安全上極めて重要な「長尾(long-tail)」シナリオでは、性能が依然として脆い状態にあり、課題が残っている。これを解決するため、本研究では、因果推論(Chain of Causation)と経路計画を統合する視覚言語行動モデル(Vision-Language-Action model, VLA)であるAlpamayo-R1(AR1)を提案する。本アプローチは以下の3つの主要な革新を特徴とする:(1)決定に基づく因果的関連の推論トレースを、自動ラベリングと人間によるフィードバックを組み合わせたハイブリッドパイプラインによって構築した「因果の連鎖(Chain of Causation, CoC)」データセット。このデータセットは、ドライビング行動と整合性を持つ因果的推論の記録を提供する;(2)物理AI応用に事前学習された視覚言語モデル「Cosmos-Reason」と、拡散モデルベースの経路デコーダーを組み合わせたモジュール型VLAアーキテクチャ。このアーキテクチャは、リアルタイムで動的に実行可能かつ安全な経路計画を生成可能である;(3)段階的な訓練戦略:まず教師あり微調整(supervised fine-tuning)により推論能力を誘発し、その後、大規模な推論モデルによるフィードバックを用いた強化学習(Reinforcement Learning, RL)により推論品質を最適化するとともに、推論と行動の整合性を強制する。評価結果から、AR1は、単一経路ベースラインと比較して、困難なシナリオにおいて経路計画精度が最大12%向上し、クローズドループシミュレーションでは、道路外走行率が35%、近接接触率が25%低下した。また、RLによる後処理により、大規模推論モデルによる評価基準で推論品質が45%向上し、推論と行動の整合性も37%向上した。モデル規模を0.5Bから7Bパラメータに拡大した場合でも、一貫した性能向上が確認された。実車走行テストでは、99msの低遅延を実現し、都市部での運用も成功裏に実現した。本研究は、解釈可能な推論と高精度な制御を統合することで、レベル4自動運転への実用的道筋を示した。今後、AR1モデルおよびCoCデータセットの一部を公開する予定である。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています