17日前
ERNIE-ViL:シーングラフを用いた知識強化型ビジュアル・ランゲージ表現
Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

要約
本研究では、シーングラフから得られる構造化知識を活用して、視覚・言語の統合表現を学習する知識強化型アプローチ「ERNIE-ViL」を提案する。ERNIE-ViLは、視覚と言語の間で詳細な意味的つながり(物体、物体の属性、物体間の関係)を構築することを目指しており、これは視覚・言語クロスモーダルタスクにおいて不可欠な要素である。視覚シーンのシーングラフを用いて、事前学習フェーズにおいて「シーングラフ予測タスク」、すなわち「物体予測」「属性予測」「関係予測」の各タスクを構築する。具体的には、文から解析されたシーングラフ内の異なる種類のノードを予測することでこれらのタスクを実装する。これにより、ERNIE-ViLは視覚と言語間の詳細な意味構造の整合性を特徴づける統合表現を学習可能となる。大規模な画像・テキスト対応データセット上で事前学習を実施した後、5つのクロスモーダル下流タスクにおいてERNIE-ViLの有効性を検証した。その結果、すべてのタスクで最先端の性能を達成し、VCRリーダーボードでは3.7%の絶対的向上率を記録し、1位を獲得した。