2ヶ月前

スタックされたクロスアテンションを用いた画像-テキストマッチング

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He
スタックされたクロスアテンションを用いた画像-テキストマッチング
要約

本論文では、画像とテキストのマッチング問題を研究しています。物体やその他の目立つ要素(例:雪、空、芝生)と文章中の対応する単語との潜在的な意味的なアライメントを推定することで、視覚と言語の間の細かい相互作用を捉え、画像とテキストのマッチングをより解釈可能にできます。従来の研究では、すべての可能な領域と単語のペアの類似性を単純に集約するか、または多段階の注意プロセスを使用して限られた数の意味的なアライメントを捉える方法が採用されていましたが、前者は重要な単語や領域に対する差別的な注意を払わず、後者は解釈可能性が低いという問題がありました。本論文では、画像領域と文章中の単語をコンテクストとして使用し、完全な潜在的なアライメントを見出し、画像とテキストの類似性を推定するためのスタッククロスアテンション(Stacked Cross Attention)手法を提案します。当手法はMS-COCOおよびFlickr30Kデータセットにおいて最先端の結果を達成しました。Flickr30Kにおいては、画像からのテキスト検索で現行最良手法に対して相対的に22.1%改善し、テキストからの画像検索でも相対的に18.2%改善しました(Recall@1に基づく)。MS-COCOにおいても、当手法は文章検索で相対的に17.8%改善し、画像検索でも相対的に16.6%改善しました(5KテストセットにおけるRecall@1に基づく)。コードは以下のURLから入手可能です: https://github.com/kuanghuei/SCAN。

スタックされたクロスアテンションを用いた画像-テキストマッチング | 最新論文 | HyperAI超神経