17日前

VLN-PETL:視覚言語ナビゲーションにおけるパラメータ効率的な転移学習

Yanyuan Qiao, Zheng Yu, Qi Wu
VLN-PETL:視覚言語ナビゲーションにおけるパラメータ効率的な転移学習
要約

視覚・言語ナビゲーション(Vision-and-Language Navigation: VLN)タスクの性能は、近年、大規模な事前学習済み視覚・言語モデルの活用により著しく進展している。しかし、各ダウンストリームVLNタスクに対して事前学習モデルを完全微調整(full fine-tuning)する方法は、モデルサイズが非常に大きいため、コストが著しく増加している。近年注目されているパラメータ効率的転移学習(Parameter-Efficient Transfer Learning: PETL)は、一般的なコンピュータビジョン(CV)および自然言語処理(NLP)タスクにおいて、大規模事前学習モデルを効率的に微調整する上で大きな可能性を示しており、事前学習モデルに内在する表現知識の大部分を活用しつつ、極めて少数のパラメータのみを微調整する点が特徴である。しかしながら、より挑戦的なVLNタスクに既存のPETL手法を単純に適用すると、性能の著しい低下を引き起こす可能性がある。このため、本研究ではVLNタスクにおけるPETL手法の適用を初めて体系的に検討し、VLNに特化したPETL手法であるVLN-PETLを提案する。具体的には、過去の相互作用を強化するための「歴史的相互作用ブースター(Historical Interaction Booster: HIB)」と、視覚・言語モーダル間の相互作用を強化する「クロスモーダル相互作用ブースター(Cross-modal Interaction Booster: CIB)」の2つのPETLモジュールを設計した。これらのモジュールを、既存の複数のPETL手法と統合することで、統合型VLN-PETLを構築した。4つの主要なVLNタスク(R2R、REVERIE、NDH、RxR)における広範な実験結果から、提案手法VLN-PETLの有効性が実証された。その結果、VLN-PETLは完全微調整と同等、あるいはそれを上回る性能を達成し、他のPETL手法と比較して顕著な性能差を示した。

VLN-PETL:視覚言語ナビゲーションにおけるパラメータ効率的な転移学習 | 最新論文 | HyperAI超神経