2ヶ月前

クロスモーダル適応双方向関連付けによるテキストから画像への人物検索

Lin, Dixuan ; Peng, Yixing ; Meng, Jingke ; Zheng, Wei-Shi
クロスモーダル適応双方向関連付けによるテキストから画像への人物検索
要約

テキストから画像への人物再識別(ReID)は、与えられた文章記述に基づいて人物の画像を検索することを目指しています。主要な課題は、視覚と文章のモダリティから得られる詳細情報間の関係を学習することです。既存の研究では、モダリティ間のギャップを縮めるための潜在空間の学習に焦点を当て、さらに両モダリティ間での局所的な対応関係を構築しています。しかし、これらの方法は画像から文章への関連付けと文章から画像への関連付けがモダリティに依存しないという前提に基づいているため、最適でない関連付けが生じることがあります。本研究では、画像から文章への関連付けと文章から画像への関連付けの相違点を示し、CADA(クロスモーダル・アダプティブ・デュアル・アソシエーション)を提案します。CADAは細密な双方向的な画像-文章詳細アソシエーションを構築するクロスモーダル・アダプティブ・デュアル・アソシエーション手法です。当方針では、視覚と文章のモダリティ間での完全な相互作用を可能にするデコーダーベースのアダプティブ双方向アソシエーションモジュールが特徴となっています。これにより、双方向かつ適応的なクロスモーダル対応関係アソシエーションが実現できます。具体的には、本論文では双方向アソシエーションメカニズムを提案しています:テキストトークンからイメージパッチへのアソシエーション(ATP)とイメージ領域からテキスト属性へのアソシエーション(ARA)。ATPについては、誤った関連付けに基づいてクロスモーダル特徴量を集約すると特徴量が歪むことを踏まえて適応的にモデル化します。ARAについては、属性が通常人物の最初の区別要素であることを考慮し、マスクされたテキストフレーズを関連するイメージ領域を使用して予測することで属性レベルでの関連付けを探求することを提案します。最後に、テキストと画像間での双方向的なアソシエーションを学習し、実験結果は当方針の優位性を示しています。コードは公開される予定です。

クロスモーダル適応双方向関連付けによるテキストから画像への人物検索 | 最新論文 | HyperAI超神経