2ヶ月前
フラミンゴ:少ショット学習のための視覚言語モデル
Alayrac, Jean-Baptiste ; Donahue, Jeff ; Luc, Pauline ; Miech, Antoine ; Barr, Iain ; Hasson, Yana ; Lenc, Karel ; Mensch, Arthur ; Millican, Katie ; Reynolds, Malcolm ; Ring, Roman ; Rutherford, Eliza ; Cabi, Serkan ; Han, Tengda ; Gong, Zhitao ; Samangooei, Sina ; Monteiro, Marianne ; Menick, Jacob ; Borgeaud, Sebastian ; Brock, Andrew ; Nematzadeh, Aida ; Sharifzadeh, Sahand ; Binkowski, Mikolaj ; Barreira, Ricardo ; Vinyals, Oriol ; Zisserman, Andrew ; Simonyan, Karen

要約
少数の注釈付き例を使用して新しいタスクに迅速に対応できるモデルを構築することは、マルチモーダル機械学習研究における未解決の課題です。本稿では、この能力を持つビジュアル言語モデル(VLM)の一種であるFlamingoを紹介します。以下の主要なアーキテクチャ革新を提案します:(i) 力強い事前学習済み視覚専用モデルと言語専用モデルの橋渡し、(ii) 任意の順序で視覚データとテキストデータが交互に配置されたシーケンスの処理、(iii) 画像や動画を入力として無縫接取り扱い。これらの柔軟性により、Flamingoモデルは大規模なマルチモーダルウェブコーパス(テキストと画像が任意の順序で交互に配置されたもの)上で訓練することができます。これは、コンテクスト内での少ショット学習能力を付与する上で重要な要素です。我々は自らのモデルに対して詳細な評価を行い、さまざまな画像および動画タスクに対する迅速な適応能力を探求し測定しました。これらにはオープンエンド型タスク(視覚的な質問回答など、モデルに質問を与えその回答を求めること)、シーンやイベントを描写する能力を評価するキャプション生成タスク、そしてクローズドエンド型タスク(複数択視覚質問回答など)が含まれます。スペクトラム上のどの位置にあるタスクでも、単一のFlamingoモデルは少ショット学習によって新たな最先端性能を達成できます。これには単純にタスク固有の例を使用してモデルにプロンプトを与えることで実現されます。多くのベンチマークにおいて、Flamingoは数千倍以上のタスク固有データで微調整された他のモデルよりも優れた性能を発揮しています。