
要約
画像と文のマッチングは最近大きな進展を遂げていますが、視覚的な意味論的乖離(visual-semantic discrepancy)が大きいことから依然として課題となっています。これは主に、ピクセルレベルの画像表現が対応する文に含まれる高次の意味情報に欠けていることに起因します。本研究では、意味強化型画像と文のマッチングモデルを提案します。このモデルは、意味概念を学習し、それらを正しい意味順序で組織化することで画像表現を改善します。まず、与えられた画像に対して多領域多ラベルCNN(multi-regional multi-label CNN)を使用して、オブジェクト、属性、動作などの意味概念を予測します。次に、異なる意味概念の順序が異なる意味論的意味を持つことを考慮し、コンテキストゲート付き文生成スキーム(context-gated sentence generation scheme)を使用して意味順序の学習を行います。このスキームは、概念関係を含む画像全体のコンテキストを参照情報として使用しつつ、対応する文における真実の意味順序(groundtruth semantic order)を教師データとして利用します。改善された画像表現を得た後、従来のLSTMを使用して文表現を学習し、その後モデル学習のために画像と文のマッチングおよび文生成を同時に行います。広範な実験により、我々が学習した意味概念と順序の有効性が示され、2つの公開ベンチマークデータセットにおいて最先端の結果が得られました。