マルチモーダル適応型蒸留による単モーダルエンコーダの活用:視覚言語タスクへの応用

視覚・言語(VL)タスク向けのクロスモーダルエンコーダは、しばしば精心に構成された視覚・言語データセットを用いて事前学習される。これらのデータセットの規模は約1,000万サンプルに達するが、その構築には人的リソースのコストが非常に高く、さらなるスケーリングは現実的でない。一方、単モーダルエンコーダは、よりシンプルなラベル付けが可能なデータセットを用いて事前学習され、その規模は数億から数十億にまで達する。その結果、単モーダルエンコーダは多くの下流タスクにおいて最先端(SOTA)の性能を達成している。しかし、VLタスクへの適用においては依然として課題が残っている。まず、事前学習データはクロスモーダルアーキテクチャにとって最適ではない上、膨大な計算リソースを要する。また、単モーダルアーキテクチャは、VLタスクにおいて顕著な効果が示されているクロスモーダル相互作用を欠いている。このため、事前学習済みの単モーダルエンコーダをVLタスクに効果的に活用する方法は、現在も活発な研究テーマである。本研究では、既存のVLアプローチを強化しつつ計算複雑性を維持する形で、単モーダルな視覚およびテキストエンコーダをVLタスクに活用する手法を提案する。具体的には、事前学習済みエンコーダから有用な知識を適応的に抽出し、クロスモーダルVLエンコーダに伝達する「マルチモーダル適応的蒸留(Multimodal Adaptive Distillation, MAD)」を提案する。さらに、VLタスク性能に及ぼす微細な影響をより正確に評価するため、データ制約やドメインシフトのさまざまな条件下で、視覚的共感的推論(Visual Commonsense Reasoning, VCR)、視覚的含意(SNLI-VE)、視覚質問応答(VQA)を含む評価プロトコルを導入する。実験の結果、MADはVCR、SNLI-VE、VQAの低ショット、ドメインシフト、完全教師ありの各条件下で一貫した性能向上を示し、画像-テキストデータで事前学習された他の単一モデルと比較してVCRにおいてSOTAの性能を達成した。さらに、CLIPから得た事前学習済み視覚エンコーダを用いた同時期の研究と比較しても、MADは優れた性能を示した。コードは公開予定である。