15日前
事前学習されたマルチモーダル大規模モデルからの動的自己適応的マルチスケール蒸留を用いた効率的なクロスモーダル表現学習
Zhengyang Liang, Meiyu Liang, Wei Huang, Yawen Li, Zhe Xue

要約
近年、事前学習済みのマルチモーダル大規模モデルは、多様なマルチモーダル応用において優れた性能を発揮していることから、広く注目を集めている。しかし、その学習に膨大な計算リソースと大規模なデータセットが必要となる点は、計算リソースが制限された環境における導入において大きな課題となっている。この課題に対処するため、本研究では、事前学習済みマルチモーダル大規模モデルから、効率的なクロスモーダル表現学習を実現するための、初めての動的自己適応マルチスケール蒸留手法を提案する。従来の蒸留手法とは異なり、本手法はマルチスケールの視点を採用し、事前学習済みマルチモーダル大規模モデルから構造的知識を効果的に抽出することを可能にし、教師モデルの包括的かつ微細な理解を生徒モデルが継承できるようにしている。各蒸留損失をバランスよくかつ効率的に最適化するため、手動による損失重み調整を不要とする新規な「動的自己適応蒸留損失バランサー」を提案する。このコンポーネントにより、蒸留プロセス中において各損失項目が動的にバランス調整される。本手法は、事前学習済みマルチモーダル大規模モデルの出力特徴量と元の画像レベル情報のみを用いてモデルの軽量化を実現し、計算リソースの消費を最小限に抑える。この効率的なアプローチは、多様な応用に適しており、リソース制約のある環境でも先進的なマルチモーダル技術の導入を可能にする。広範な実験により、本手法がモデルの複雑さと学習コストを顕著に低減しつつも、高い性能を維持することが実証された。さらに、本研究で得られた生徒モデルは、画像レベルの情報のみを用いてクロスモーダル検索タスクにおいて最先端の性能を達成しており、従来の領域レベルの情報に依存する手法を上回っている。