17日前

UNIMO：マルチモーダル対比学習を活用した統合的モーダル理解と生成へ

Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu, Jiachen Liu, Hua Wu, Haifeng Wang

要約

従来の事前学習手法は、単モーダルなタスクまたは多モーダルなタスクに焦点を当てており、互いに効果的に適応できないという課題があった。これらの手法は、単一モーダルデータ（すなわちテキストまたは画像）のみ、あるいは限定的な多モーダルデータ（画像-テキストペア）しか活用できなかった。本研究では、単モーダルおよび多モーダルな理解・生成タスクの両方に効果的に適応可能な統一モーダル事前学習アーキテクチャであるUNIMOを提案する。大規模なフリーなテキストコーパスおよび画像データセットを活用することで、視覚的およびテキスト的認識能力を向上させることができ、画像-テキストペアのコーパス上でクロスモーダル対比学習（Cross-Modal Contrastive Learning, CMCL）を用いて、テキスト情報と視覚情報を統一された意味空間に整列させる。非ペアリングされた単モーダルデータは非常に豊富であるため、本モデルはより大規模なデータを活用して、より汎化性の高い表現を学習できる。さらに、統一された意味空間において、テキスト知識と視覚知識が相互に補完し合うことができる。実験結果から、UNIMOが複数の単モーダルおよび多モーダル下流タスクにおいて顕著な性能向上を達成することが示された。本研究のコードおよび事前学習済みモデルは、UNIMOプロジェクトページ（https://unimo-ptm.github.io/）にて公開されている。