15日前

OPT:マルチモーダル理解および生成のためのオムニパーセプション事前学習モデル

Jing Liu, Xinxin Zhu, Fei Liu, Longteng Guo, Zijia Zhao, Mingzhen Sun, Weining Wang, Hanqing Lu, Shiyu Zhou, Jiajun Zhang, Jinqiao Wang
OPT:マルチモーダル理解および生成のためのオムニパーセプション事前学習モデル
要約

本稿では、視覚、テキスト、音声のリソースを統合的にモデリングすることで、マルチモーダル理解および生成を実現する「オムニペルセプション・プレトレーニングモデル(Omni-perception Pre-Trainer, OPT)」を提案する。OPTはエンコーダ・デコーダ構造に基づいて構築されており、各モーダルに対応する単一モーダルエンコーダを3つ設け、それぞれがトークンベースの埋め込み表現を生成する。さらに、3つのモーダル間の相関関係を捉えるためのマルチモーダルエンコーダと、それぞれテキストおよび画像を生成するための2つのマルチモーダルデコーダを備える。OPTのプレトレーニングにおいては、異なるデータ粒度(トークンレベル、モーダルレベル、サンプルレベル)から多様なマルチモーダルリソースを統合的にモデリングするため、マルチタスク事前学習スキームを設計した。このスキームにより、OPTは異なるモーダル間での表現の対応付けおよび翻訳能力を学習する。プレトレーニングはOpen Imagesデータセットから得られる大量の画像-テキスト-音声トリプレットを用いて実施された。実験結果から、OPTが強力な画像-テキスト-音声マルチモーダル表現を学習でき、さまざまなマルチモーダル理解および生成タスクにおいて優れた性能を達成することが示された。

OPT:マルチモーダル理解および生成のためのオムニパーセプション事前学習モデル | 最新論文 | HyperAI超神経