HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-ViL:シーングラフを用いた知識強化型ビジュアル・ランゲージ表現

Fei Yu Jiji Tang Weichong Yin Yu Sun Hao Tian Hua Wu Haifeng Wang

概要

本研究では、シーングラフから得られる構造化知識を活用して、視覚・言語の統合表現を学習する知識強化型アプローチ「ERNIE-ViL」を提案する。ERNIE-ViLは、視覚と言語の間で詳細な意味的つながり(物体、物体の属性、物体間の関係)を構築することを目指しており、これは視覚・言語クロスモーダルタスクにおいて不可欠な要素である。視覚シーンのシーングラフを用いて、事前学習フェーズにおいて「シーングラフ予測タスク」、すなわち「物体予測」「属性予測」「関係予測」の各タスクを構築する。具体的には、文から解析されたシーングラフ内の異なる種類のノードを予測することでこれらのタスクを実装する。これにより、ERNIE-ViLは視覚と言語間の詳細な意味構造の整合性を特徴づける統合表現を学習可能となる。大規模な画像・テキスト対応データセット上で事前学習を実施した後、5つのクロスモーダル下流タスクにおいてERNIE-ViLの有効性を検証した。その結果、すべてのタスクで最先端の性能を達成し、VCRリーダーボードでは3.7%の絶対的向上率を記録し、1位を獲得した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています