2ヶ月前

インスタンス認識に基づく画像と文の対応付け:選択的マルチモーダルLSTMの利用

Yan Huang; Wei Wang; Liang Wang
インスタンス認識に基づく画像と文の対応付け:選択的マルチモーダルLSTMの利用
要約

効果的な画像と文のマッチングは、それらの全体的な視覚-意味類似度を正確に測定する方法に大きく依存します。このような全体的な類似度は、画像(オブジェクト)と文(単語)のペア間の複数の局所的類似度が複雑に集約されることから生じると観察されています。そこで、インスタンス認識型の画像と文のマッチングのために選択的マルチモーダル長短期記憶ネットワーク(sm-LSTM)を提案します。sm-LSTMでは、各タイムステップでマルチモーダルなコンテキスト制御型注意スキームが含まれており、画像と文のペアを選択的に注目することができます。これは、画像と文に対するペアごとのインスタンス認識型サリエンシーマップを予測することで実現されます。選択されたペアごとのインスタンスについて、予測されたサリエンシーマップに基づいてその表現が得られ、その後、局所的類似度を測定するために比較されます。同様に複数の局所的類似度を数個のタイムステップ内で測定することにより、sm-LSTMは隠れ状態とともにそれらを逐次集約し、最終的なマッチングスコアとして望まれる全体的な類似度を得ます。広範な実験結果は、当モデルが複雑な内容を持つ画像と文を良好にマッチングできることを示しており、2つの公開ベンチマークデータセットにおいて最先端の成果を達成しています。