11日前
箱の外を見る:視覚言語表現学習のエンドツーエンド事前学習
Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu, Dongmei Fu, Jianlong Fu

要約
本研究では、数百万枚の画像-テキストペアからマルチモーダルな対応関係を学習することを目的とした視覚-言語事前学習(Vision-Language Pre-Training, VLPT)において、畳み込みニューラルネットワーク(CNN)とTransformerの共同学習に着目する。最先端のアプローチは、画像の顕著な領域を抽出し、その領域を単語と段階的に対応させる手法を採用している。しかし、領域ベースの視覚特徴は通常画像の一部を表すため、既存の視覚-言語モデルでは、ペアリングされた自然言語からの意味情報を十分に理解することが困難である。本論文では、「See Out of tHe bOx」をコンセプトに、画像全体を入力として受け取り、エンド・ツー・エンドの形で視覚-言語表現を学習するモデルSOHOを提案する。SOHOはバウンディングボックスのアノテーションを必要としないため、領域ベースの手法に比べて推論速度が約10倍速くなる。特に、SOHOは視覚辞書(Visual Dictionary, VD)を用いて、包括的かつコンパクトな画像特徴を抽出する能力を学習する。VDは類似した意味を持つ視覚的抽象表現を一貫して表現するように設計されており、オンラインで更新され、本研究で提案する事前学習タスク「マスク視覚モデリング(Masked Visual Modeling, MVM)」で活用される。標準的なVLPT設定に従い、4つの代表的な視覚-言語タスクにおいて実験を実施した結果、SOHOはMSCOCOテキスト検索5kテスト分割においてR@1スコアで2.0%の絶対的向上、NLVR$^2$ test-P分割で1.5%の精度向上、SNLI-VEテスト分割で6.7%の精度向上を達成した。