11日前

オスカー：視覚言語タスクのためのオブジェクト意味論整合型事前学習

Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao

論文の詳細を見る

要約

画像とテキストのペアを用いたマルチモーダル表現の大規模事前学習手法は、視覚言語タスクにおいてますます注目を集めています。従来の手法は、画像の領域特徴とテキスト特徴を単純に連結してモデルの入力とし、自己注意機構（self-attention）を用いて brute force（力任せ）な方法で画像とテキストの意味的対応関係を学習するものですが、本論文では、画像内で検出された物体タグをアンカー点として用いることで、対応関係の学習を著しく容易にする新たな学習手法「Oscar（Object-Semantics Aligned Pre-training）」を提案します。本手法の提案は、画像内の顕著な物体は正確に検出可能であり、かつそれらが対応するテキストで頻出するという観察に基づいています。我々は、650万件の公開テキスト・画像ペアからなるコーパス上でOscarモデルを事前学習し、下流タスクにおいて微調整（fine-tuning）を実施することで、6つの代表的な視覚言語理解および生成タスクにおいて、新たな最良の性能（state-of-the-art）を達成しました。