2ヶ月前

全文表現を用いた文脈依存の非局所アライメントによるテキストベースの人物検索

Gao, Chenyang ; Cai, Guanyu ; Jiang, Xinyang ; Zheng, Feng ; Zhang, Jun ; Gong, Yifei ; Peng, Pai ; Guo, Xiaowei ; Sun, Xing
全文表現を用いた文脈依存の非局所アライメントによるテキストベースの人物検索
要約

テキストベースの人物検索は、対象人物の説明文を使用して画像ギャラリーから該当する人物を検索することを目指しています。これは非常に困難な課題であり、モーダルギャップにより差別的な特徴を効果的に抽出することが難しくなります。さらに、歩行者の画像と説明文のクラス間変動が小さいため、視覚的および言語的な手がかりをすべてのスケールで整合させるために包括的な情報が必要です。既存の大多数の手法は、単一スケール内の画像とテキストの局所的な整合性(例えば、グローバルスケールのみまたは部分スケールのみ)を考えた上で、各スケールごとに単純に整合性を構築しています。この問題に対処するために、我々は全スケールにわたる非局所的な整合性を適応的に実現する方法であるNAFS(Non-local Alignment over Full-Scale representations)を提案します。まず、新しい階段型ネットワーク構造を提案し、より良い局所性を持つ全スケールの画像特徴量を抽出します。次に、局所制約付きアテンションを持つBERTモデルを提案し、異なるスケールでの説明文表現を得ます。そして、各スケールごとに個別に特徴量を整合させる代わりに、新しいコンテクストに基づく非局所的アテンションメカニズムを適用し、すべてのスケールにおいて潜在的な整合性を見つけることを可能にします。実験結果は、テキストベースの人物検索データセットにおいてトップ1精度で5.53%向上し、トップ5精度で5.35%向上したことを示しており、本手法は最先端の手法よりも優れた性能を達成しています。コードは以下のURLから入手可能です: https://github.com/TencentYoutuResearch/PersonReID-NAFS

全文表現を用いた文脈依存の非局所アライメントによるテキストベースの人物検索 | 最新論文 | HyperAI超神経