HyperAIHyperAI

Command Palette

Search for a command to run...

マルチモーダル適応型蒸留による単モーダルエンコーダの活用:視覚言語タスクへの応用

概要

視覚・言語(VL)タスク向けのクロスモーダルエンコーダは、しばしば精心に構成された視覚・言語データセットを用いて事前学習される。これらのデータセットの規模は約1,000万サンプルに達するが、その構築には人的リソースのコストが非常に高く、さらなるスケーリングは現実的でない。一方、単モーダルエンコーダは、よりシンプルなラベル付けが可能なデータセットを用いて事前学習され、その規模は数億から数十億にまで達する。その結果、単モーダルエンコーダは多くの下流タスクにおいて最先端(SOTA)の性能を達成している。しかし、VLタスクへの適用においては依然として課題が残っている。まず、事前学習データはクロスモーダルアーキテクチャにとって最適ではない上、膨大な計算リソースを要する。また、単モーダルアーキテクチャは、VLタスクにおいて顕著な効果が示されているクロスモーダル相互作用を欠いている。このため、事前学習済みの単モーダルエンコーダをVLタスクに効果的に活用する方法は、現在も活発な研究テーマである。本研究では、既存のVLアプローチを強化しつつ計算複雑性を維持する形で、単モーダルな視覚およびテキストエンコーダをVLタスクに活用する手法を提案する。具体的には、事前学習済みエンコーダから有用な知識を適応的に抽出し、クロスモーダルVLエンコーダに伝達する「マルチモーダル適応的蒸留(Multimodal Adaptive Distillation, MAD)」を提案する。さらに、VLタスク性能に及ぼす微細な影響をより正確に評価するため、データ制約やドメインシフトのさまざまな条件下で、視覚的共感的推論(Visual Commonsense Reasoning, VCR)、視覚的含意(SNLI-VE)、視覚質問応答(VQA)を含む評価プロトコルを導入する。実験の結果、MADはVCR、SNLI-VE、VQAの低ショット、ドメインシフト、完全教師ありの各条件下で一貫した性能向上を示し、画像-テキストデータで事前学習された他の単一モデルと比較してVCRにおいてSOTAの性能を達成した。さらに、CLIPから得た事前学習済み視覚エンコーダを用いた同時期の研究と比較しても、MADは優れた性能を示した。コードは公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
マルチモーダル適応型蒸留による単モーダルエンコーダの活用:視覚言語タスクへの応用 | 記事 | HyperAI超神経