17日前

プリズマー：マルチタスクエキスパートを備えた視覚言語モデル

Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar

要約

最近の視覚言語モデルは、多様なモーダルな生成能力を著しく発揮している。しかし、通常、これらのモデルは膨大なデータセット上で大規模なモデルを訓練する必要がある。よりスケーラブルな代替手段として、本研究では、タスク固有のエキスパートのアンサンブルを活用する、データおよびパラメータ効率的な視覚言語モデル「Prismer」を提案する。Prismerは、少数のコンポーネントのみを訓練すればよく、ネットワークの大部分の重みは、既に入手可能で事前学習済みの複数のエキスパートから継承され、訓練中は固定されたままとなる。幅広い分野にわたるエキスパートを活用することで、Prismerがこれらのエキスパートの知識を効率的に統合し、さまざまな視覚言語推論タスクに適応できることを示した。実験の結果、Prismerは現在の最先端モデルと比較しても競争力のあるファインチューニングおよびフェイショット学習性能を達成している一方で、訓練データ量は最大で2桁以上削減可能であることが明らかになった。コードは https://github.com/NVlabs/prismer で公開されている。