LatentVLA、自律走行のための新しい潜在推論モデル
自律運転の文脈において、自然言語による推論が直感的でないという問題意識から、ラテン空間内で推論を行う「LatentVLA」モデルが提案されました。従来の AlpamayoR1 (AR1) が因果関係の連鎖データセットに基づく言語推論に依存するのに対し、LatentVLA は生データから直接学習し、自然言語のバイアスや非効率性を排除します。このアプローチの核心は「ラテン・アクション・ラーニング」です。教師なしデータを用いて、入力フレームから運転手が取るべき潜在行動を予測するインバース・ダイナミクス・モデルと、予測された行動から次のフレームを再構築するフォワード・ダイナミクス・モデルを組み合わせます。これにより、連続的な行動表現を離散化コードブックにマッピングする VQ-VAE を通じて、本質的な行動ベクトルを抽出します。 さらに、車両の挙動と環境ノイズを分離するため、2 段階のエンコーダー・デコーダー構造が採用されています。まず環境変数を条件に環境ダイナミクスをモデル化し、残りの潜在変数を車両固有の行動として特定します。この離散化された行動表現を用いて、Qwen2.5-VL モデルをトレーニングし、知識蒸留を経て軽量化された意思決定トランスフォーマーが最終的な推論担い手となります。これにより、VLM の高次な世界知識を既存の E2E アーキテクチャに組み込みつつ、リアルタイム動作を維持します。 NavSim ベンチマークでの評価では、LatentVLA は標準的な E2E や LLM 依存モデルを上回る性能を記録しました。ただし、PDMS 指標での改善幅は 0.4 パーセントから 0.3 パーセント程度と微小で、非反応型シミュレータによるオープンループ評価では、VLM の高次推論が真価を発揮しきれていない可能性が示唆されます。自動運転の評価においては、現実の環境との動的相互作用を考慮したクローズドループ評価の重要性が指摘されており、今後の実証による検証が期待されます。
