2ヶ月前

See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval より細かく、より多く見る:テキストベースの人物検索における暗黙のモダリティアライメント

Shu, Xiujun ; Wen, Wei ; Wu, Haoqian ; Chen, Keyu ; Song, Yiran ; Qiao, Ruizhi ; Ren, Bo ; Wang, Xiao
See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval
より細かく、より多く見る:テキストベースの人物検索における暗黙のモダリティアライメント
要約

テキストベースの人物検索は、文章による説明に基づいて対象の人物を検索することを目指しています。その鍵となるのは、視覚的・言語的モダリティ間の共通潜在空間マッピングを学習することです。この目標を達成するために、既存の研究ではセグメンテーションを使用して明示的なクロスモーダルアライメントを得るか、または注意機構(attention mechanism)を利用して目立つアライメントを探求する方法が採用されています。これらの手法には2つの欠点があります:1) クロスモーダルアライメントのラベリングは時間のかかる作業です。2) 注意機構は目立つクロスモーダルアライメントを探求できますが、微妙で重要なペアを見落とす可能性があります。これらの問題を緩和するために、私たちはテキストベースの人物検索向けにImplicit Visual-Textual (IVT) フレームワークを導入します。従来のモデルとは異なり、IVTは単一のネットワークを使用して両方のモダリティの表現を学習し、視覚的・言語的な相互作用に貢献します。さらに微細なアライメントを探求するために、私たちは2つの暗黙的な意味論的アライメントパラダイムを提案します:マルチレベルアライメント (Multi-Level Alignment, MLA) と双方向マスクモデリング (Bidirectional Mask Modeling, BMM) です。MLAモジュールは文レベル、フレーズレベル、単語レベルでのより詳細なマッチングを探求し、BMMモジュールは視覚的・言語的モダリティ間でより多くの意味論的アライメントを見つけ出すことを目指しています。公的に利用可能なデータセットであるCUHK-PEDES, RSTPReID, ICFG-PEDESにおいて提案されたIVTの評価を行うため、広範な実験が行われました。明示的な身体部位のアライメントなしでも、当手法は最先端の性能を達成しています。コードは以下のURLから入手可能です:https://github.com/TencentYoutuResearch/PersonRetrieval-IVT.

See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval より細かく、より多く見る:テキストベースの人物検索における暗黙のモダリティアライメント | 最新論文 | HyperAI超神経