11日前

ERNIE-UniX2:理解と生成を統合するクロスリンガル・クロスモーダルフレームワーク

Bin Shan, Yaqian Han, Weichong Yin, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
ERNIE-UniX2:理解と生成を統合するクロスリンガル・クロスモーダルフレームワーク
要約

近年の多言語・多モーダルな研究では、視覚言語事前学習(VLP)モデルを英語以外の入力に拡張し、優れた性能を達成しようとする試みが行われている。しかし、これらのモデルはエンコーダーのみを用いたアーキテクチャに依存しており、主に理解タスクに特化している。本論文では、生成タスクと理解タスクの両方に対応できる統合的な多言語・多モーダル事前学習フレームワーク「ERNIE-UniX2」を提案する。ERNIE-UniX2はエンコーダー・デコーダー構造に基づき、対比学習や言語モデリングなどの複数の事前学習アプローチを統合し、言語とモーダル間のより優れた共同表現を学習することを目指している。さらに、ERNIE-UniX2は、生成タスクおよび理解タスクの多様な下流タスクに対してスムーズなファインチューニングが可能である。多言語テキストのみならず画像-テキストデータセットを統合して事前学習することで、ERNIE-UniX2は、マルチモーダル機械翻訳や多言語視覚質問応答などの多言語・多モーダル生成・理解タスクにおいて、最先端(SOTA)の性能を達成した。

ERNIE-UniX2:理解と生成を統合するクロスリンガル・クロスモーダルフレームワーク | 最新論文 | HyperAI超神経