2ヶ月前

ノイジー対応学習を用いたテキストから画像への個人再識別

Qin, Yang ; Chen, Yingke ; Peng, Dezhong ; Peng, Xi ; Zhou, Joey Tianyi ; Hu, Peng
ノイジー対応学習を用いたテキストから画像への個人再識別
要約

テキストから画像への人物再識別(TIReID)は、クロスモーダルコミュニティにおいて注目を集めている研究テーマであり、テキストクエリに基づいて対象の人物を検索することを目指しています。多くのTIReID手法が提案され、有望な性能を達成していますが、これらの手法は訓練用の画像とテキストのペアが正しく対応していることを暗黙のうちに前提としています。しかし、実世界の状況では必ずしもそうとは限らず、画像の品質が低かったり、アノテーションに誤りがあることにより、画像とテキストのペアが部分的に相関していたり、甚至完全に誤った相関(ノイジーコレポンデンス: NC)を持つことがあります。この問題に対処するため、我々は新しいロバストデュアルエンベッディング手法(RDE)を提案します。RDEは2つの主要なコンポーネントで構成されています:1) コンフィデンスコンセンサス分割(CCD)モジュール:デュアルエンベッディングモジュールの二重粒度の決定を活用してクリーンな訓練データの共通集合を得ることで、モデルが正確かつ信頼性のある視覚-意味論的な関連性を学習できるようにします。2) トリプレットアライメント損失(TAL):従来のトリプレットランキング損失における最も困難なネガティブサンプルに対する制約を、すべてのネガティブサンプルに対する対数指数上限に緩和することで、NC下でのモデル崩壊を防ぎつつ、パフォーマンス向上のために困難なネガティブサンプルに焦点を当てることが可能になります。我々はCUHK-PEDES, ICFG-PEDES, RSTPReIDという3つの公開ベンチマークデータセットを使用して広範な実験を行い、RDEの性能とロバスト性を評価しました。本手法は合成されたノイジーコレポンデンスあり・なし問わず全ての3つのデータセットで最先端の結果を達成しています。コードは以下のURLから入手可能です:https://github.com/QinYang79/RDE。

ノイジー対応学習を用いたテキストから画像への個人再識別 | 最新論文 | HyperAI超神経