9日前

事前学習モデルのアンサンブル構成における反復的一致によるアプローチ

Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Igor Mordatch
事前学習モデルのアンサンブル構成における反復的一致によるアプローチ
要約

大規模な事前学習モデルは、学習に用いられたデータに応じて特徴的かつ補完的な能力を示す。GPT-3などの言語モデルはテキストの推論が可能であるが、視覚情報を理解することはできない。一方、DALL-Eなどの視覚モデルは写実的な画像を生成できるものの、複雑な言語記述を理解することができない。本研究では、異なる事前学習モデルのアンサンブルを構成する統一的な枠組みを提案する。この枠組みにより、個々のモデルの強みを統合することで、ファインチューニングを一切行わずにゼロショット(zero-shot)の多モーダル問題を解決できる。本手法では、事前学習モデルを「生成器(generator)」または「スコアラー(scorer)」として用い、閉ループ型の反復的合意最適化によってそれらを統合する。生成器は候補を構築し、スコアラーは反復的にフィードバックを提供して生成結果を改善する。この閉ループ型のコミュニケーションにより、モデル同士が互いの誤りを修正できるようになり、下流タスクにおける性能が著しく向上する。例えば、小学校レベルの数学問題において、精度を7.5%向上させた。また、複数のスコアラーによるアンサンブルによる合意は、単一のスコアラーのフィードバックよりも優れた性能を発揮することが示された。これは、各専門モデルの強みを有効に活用できることを意味する。実験結果から、本手法が画像生成、動画質問応答、数学的推論、ロボット操作など、幅広いゼロショット多モーダルタスクに通用する汎用的フレームワークとして利用可能であることが明らかになった。プロジェクトページ:https://energy-based-model.github.io/composing-pretrained-models