HyperAIHyperAI

Command Palette

Search for a command to run...

複数モーダル少データ学習における凍結された言語モデルの活用

Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill

概要

十分な規模で訓練された自己回帰型言語モデルは、わずか数例の例を提示されるだけで新たな言語タスクを学習する著しい能力を示す。本研究では、このような少量学習能力を視覚と言語を統合したマルチモーダルな設定へと転移する、シンプルかつ効果的なアプローチを提示する。画像とキャプションの対応データを用いて、視覚エンコーダを訓練し、各画像を連続的な埋め込みの列として表現する。これにより、事前に訓練済みで固定された言語モデルが、この埋め込み列をプレフィックスとして提示されることで適切なキャプションを生成する。このようにして得られたシステムは、複数の画像とテキストの埋め込みが交互に並んだシーケンスとして例を表現することで、さまざまな新規タスクを例に応じて学習する、マルチモーダルな少量学習モデルとなる。我々は、このモデルが新規の物体に対する単語を迅速に学習し、新しい視覚カテゴリを認識し、わずか数例の例をもとに視覚質問応答(VQA)を実行できること、また外部知識を活用できることを、既存および新規のベンチマークにおいて一貫したモデル評価を通じて実証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています