Command Palette

Search for a command to run...

20日前

VLAを盲目にしない:OOD一般化のための視覚表現の整合

Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

VLAを盲目にしない:OOD一般化のための視覚表現の整合

要約

視覚・言語・行動(Vision-Language-Action: VLA)モデルの着実な成功は、事前学習された視覚・言語モデル(Vision-Language Models: VLM)がエージェントに転移可能な世界知識および視覚・言語(VL)の意味基盤を付与するという可能性に起因している。これにより、より広範な一般化能力を持つ行動モデルの基盤が築かれた。しかし、これらのVLMが行動モダリティに適応される際、元のVL表現や知識がどの程度保持されているかは依然として不明である。本研究では、VLAのファインチューニング過程における表現の保持について体系的な分析を行い、単純な行動ファインチューニングが視覚表現の劣化を引き起こすことを示した。これらの影響を定量化・特徴づけるために、VLAモデルの隠れ表現を調査し、アテンションマップを分析した。さらに、VLAモデルとその対応するVLMモデルを比較するためのターゲット化されたタスクと手法を設計し、行動ファインチューニングによって引き起こされるVL能力の変化を明確に分離・評価した。また、視覚表現の整合性を高めるための多様な戦略を検証し、表現の劣化を軽減し、分布外(out-of-distribution: OOD)のシナリオへの一般化性能を向上させる、簡潔かつ効果的な手法を提案した。本研究の分析により、行動ファインチューニングとVL表現の劣化の間のトレードオフが明確になり、継承されたVL能力を回復するための実用的なアプローチが示された。コードは公開済み:https://blind-vla-paper.github.io

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VLAを盲目にしない:OOD一般化のための視覚表現の整合 | 論文 | HyperAI超神経