15日前

NAPReg:意味的に意識したクロスモーダル埋め込みのための名詞をプロキシとする正則化

{Venu Govindaraju, Srirangaraj Setlur, Naji Mohamed Ali, Deen Dayal Mohan, Bhavin Jawade}
NAPReg:意味的に意識したクロスモーダル埋め込みのための名詞をプロキシとする正則化
要約

クロスモーダル検索は、幅広い実用的応用を持つ基本的な視覚言語タスクである。テキストから画像へのマッチングは、最も一般的なクロスモーダル検索の形式であり、大規模な画像データベースとテキストクエリが与えられた場合、最も関連性の高い画像セットを検索するタスクである。従来の手法では、双エンコーダー構造とアテンション機構、およびランクリング損失を用いて、コサイン類似度に基づく検索に利用可能な埋め込み表現を学習している。これらの手法は、特化したアテンション機構を用いて視覚領域と語彙単位の間で意味的整合性を図ろうとしているが、訓練目的自体がこのような整合性を明示的に強制する仕組みを備えていない。この問題に対処するため、本研究では、高レベルの意味的エンティティ(具体的には名詞)を埋め込み空間に投影し、共有かつ学習可能なプロキシとして利用する新しい正則化手法NAPRegを提案する。本手法により、アテンション機構がより優れた語彙-領域対応を学習可能になるとともに、他のサンプルの領域情報を活用することで、意味概念に対するより汎化性の高い潜在表現を構築できることが示された。MS-COCO、Flickr30k、Flickr8kの3つのベンチマークデータセットにおける実験結果から、本手法がテキスト-画像および画像-テキスト検索タスクにおけるクロスモーダルメトリック学習において、最先端の性能を達成することが明らかになった。コード:https://github.com/bhavinjawade/NAPReq

NAPReg:意味的に意識したクロスモーダル埋め込みのための名詞をプロキシとする正則化 | 最新論文 | HyperAI超神経