17日前

複数モーダル少データ学習における凍結された言語モデルの活用

Maria Tsimpoukelli, Jacob Menick, Serkan Cabi, S. M. Ali Eslami, Oriol Vinyals, Felix Hill

要約

十分な規模で訓練された自己回帰型言語モデルは、わずか数例の例を提示されるだけで新たな言語タスクを学習する著しい能力を示す。本研究では、このような少量学習能力を視覚と言語を統合したマルチモーダルな設定へと転移する、シンプルかつ効果的なアプローチを提示する。画像とキャプションの対応データを用いて、視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現する。これにより、事前に訓練済みで固定された言語モデルが、この埋め込み列をプレフィックスとして提示されることで適切なキャプションを生成する。このようにして得られたシステムは、複数の画像とテキストの埋め込みが交互に並んだシーケンスとして例を表現することで、さまざまな新規タスクを例に応じて学習する、マルチモーダルな少量学習モデルとなる。我々は、このモデルが新規の物体に対する単語を迅速に学習し、新しい視覚カテゴリを認識し、わずか数例の例をもとに視覚質問応答（VQA）を実行できること、また外部知識を活用できることを、既存および新規のベンチマークにおいて一貫したモデル評価を通じて実証した。