7日前
MaMMUT:マルチモーダルタスクの統合学習のためのシンプルなアーキテクチャ
Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova

要約
言語モデルの開発は、エンコーダ・デコーダ構造からデコーダオンリー構造へと移行している。さらに、最も一般的なマルチモーダルタスクである生成タスクと対比学習タスクの2つは、一つのアーキテクチャに統合することが困難であり、さらに下流タスクへの適応も必要となることが観察される。本研究では、マルチモーダルタスクに対してデコーダオンリーモデルを用いた訓練の新しいパラダイムを提案する。このアプローチは、視覚・言語タスクの多様な組み合わせを統合的に学習する上で、驚くほど効果的である。この目的を達成するために、シンプルなモデル「MaMMUT」を導入する。MaMMUTは単一の視覚エンコーダとテキストデコーダから構成され、テキストデコーダ上で独自の二段階処理(two-pass)アプローチを採用することで、対比学習と生成学習の両方を効果的に扱える。我々は、これらの多様な目的を統合的に学習することが、単純かつ効果的であり、タスク間でモデルの重み共有を最大化できることを示す。さらに、同一アーキテクチャはオープンボリューム物体検出や動画・言語タスクへの容易な拡張を可能にする。モデルは多様なタスクに取り組むことができる一方で、モデル容量は比較的小規模である。画像・テキスト間の検索、テキスト・画像間の検索、動画質問応答、オープンボリューム物体検出の各タスクにおいて、はるかに大規模かつ広範な訓練を経た基礎モデルを上回る最先端の性能を達成している。また、VQA(視覚的質問応答)および動画キャプション生成においても、そのモデル容量を考慮すると非常に競争力のある結果を示している。消去実験(ablation studies)により、本手法の柔軟性および優位性が確認された。