
大規模な事前学習済み視覚言語モデル(VLM)は、多様なタスクにおける転移学習において不可欠な存在となっている。しかし、限られた少データ(few-shot)条件下でこれらのモデルを適応させると、過学習が生じやすく、新たなタスクにおける性能が低下する傾向がある。この問題に対処するため、本研究では、共有され、学習可能でモダリティに依存しない表現空間を導入する新しいマルチモーダル表現学習(MMRL)フレームワークを提案する。MMRLは、空間トークンをテキスト表現トークンおよび画像表現トークンに投影することで、より効果的なマルチモーダル相互作用を実現する。従来の手法がクラストークンの特徴のみを最適化するのに対し、MMRLはデータセット固有の特徴が顕著に現れるエンコーダーの高層層に表現トークンを統合しつつ、低層部では汎化された知識を保持する。学習段階では、表現特徴とクラス特徴の両方が最適化され、表現トークンに対して学習可能な投影層を適用するが、クラストークンの投影層は固定(frozen)に保つことで事前学習された知識を維持する。さらに、固定されたVLMからのゼロショット特徴とクラス特徴・テキスト特徴の一致を促す正則化項を導入することで、モデルの汎化能力を確保する。推論時には、分離戦略(decoupling strategy)を採用し、ベースクラスに対しては表現特徴とクラス特徴を併用する一方、新規タスクではより汎化された知識を保持するクラス特徴のみを用いる。15の異なるデータセットにおける広範な実験結果から、MMRLは最先端の手法を上回り、タスク固有の適応性と汎化能力の間でバランスの取れた性能を達成することが示された。コードは https://github.com/yunncheng/MMRL にて公開されている。