エミュー: 多モダリティにおける生成的プリトレーニング

私たちは、トランスフォーマーを基盤とする多モーダル基礎モデルであるEmuを紹介します。このオムニvoreモデルは、任意の単一モーダルまたは多モーダルデータ入力(例:画像、テキスト、ビデオの交互配置)を受け入れ、一モデルで全てを処理する自己回帰訓練プロセスを通じて、マルチモーダルな文脈において画像とテキストをシームレスに生成することができます。まず、視覚信号はエンベディングに符号化され、テキストトークンと共に交互に入力シーケンスを形成します。その後、Emuは次なるテキストトークンの分類や次なる視覚エンベディングの回帰という統一的な目的のもとでエンドツーエンドで訓練されます。この柔軟な多様性により、大規模な様々な事前学習データソース(例:フレームとテキストが交互に配置されたビデオ、画像とテキストが交互に配置されたウェブページ、ウェブスケールの画像-テキストペアやビデオ-テキストペア)の探索が可能になります。Emuは画像からテキストへの変換やテキストから画像への生成などの両方のタスクに対して汎用的な多モーダルインターフェースとして機能し、文脈内での画像およびテキスト生成もサポートしています。ゼロショット/ファーソットタスク(例:画像キャプション作成、視覚的な質問応答、ビデオ質問応答、テキストから画像への生成)など広範囲にわたるタスクにおいて、Emuは最先端の大規模多モーダルモデルと比較して優れた性能を示しています。指示調整を通じた多モーダルアシスタントなどの拡張機能も印象的な性能で実証されています。注:「オムニvore」は一般的には「雑食性」と訳されることが多いですが、「多様性」や「包括性」を強調するために「オムニvore」と表記しました。「omnivore」は通常生物學的コンテクストで使用されるため、「包括的」または「多様な」の方が適切かもしれません。ただし、「オムニvoreモデル」という表現が研究コミュニティで既に定着している場合は、「オムニvoreモデル」と訳すのが良いでしょう。修正版:私たちは、トランスフォーマーを基盤とする多モーダル基礎モデルであるEmuを紹介します。この包括的モデルは、任意の単一モーダルまたは多モーダルデータ入力(例:画像、テキスト、ビデオの交互配置)を受け入れ、一モデルで全てを処理する自己回帰訓練プロセスを通じて、マルチモーダルな文脈において画像とテキストをシームレスに生成することができます。まず、視覚信号はエンベディングに符号化され、テキストトークンと共に交互に入力シーケンスを形成します。その後、Emuは次なるテキストトークンの分類や次なる視覚エンベディングの回帰という統一的な目的のもとでエンドツーエンドで訓練されます。この柔軟な多様性により、大規模な様々な事前学習データソース(例:フレームとテキストが交互に配置されたビデオ、画像とテキストが交互に配置されたウェブページ、ウェブスケールの画像-テキストペアやビデオ-テキストペア)の探索が可能になります。Emuは画像からテキ스트への変換やテキストから画像への生成などの両方のタスクに対して汎用的な多モーダルインターフェースとして機能し、文脈内での画像およびテキスト生成もサポートしています。ゼロショット/ファーソットタスク(例:画像キャプション作成、視覚的な質問応答、ビデオ質問応答、テキストから画像への生成)など広範囲にわたるタスクにおいて、Emuは最先端の大規模多モーダルモデルと比較して優れた性能を示しています。指示調整を通じた多モーダルアシスタントなどの拡張機能も印象的な性能で実証されています。