HyperAIHyperAI

Command Palette

Search for a command to run...

統一的なテキストベースの人物検索に向けて:大規模な多属性および言語検索ベンチマーク

Shuyu Yang Yinan Zhou Yaxiong Wang Yujiao Wu Li Zhu Zhedong Zheng

概要

本論文では、テキストベースの人物検索用の大規模な多属性言語検索データセット(MALS)を紹介し、属性認識と画像-テキストマッチングの両タスクで前学習を行うことの実現可能性を探ります。特に、MALSには1,510,330の画像-テキストペアが含まれており、これは既存のCUHK-PEDESの約37.5倍の規模です。また、すべての画像は27つの属性で注釈付けられています。プライバシーへの配慮と注釈コストを考慮し、市販のディフュージョンモデルを使用してデータセットを生成しました。生成されたデータから学習することの実現可能性を検証するため、属性とテキスト間の共有知識を取り入れた新しい共同学習フレームワークであるAttribute Prompt Learning and Text Matching Learning (APTM)を開発しました。その名が示すように、APTMには属性プロンプト学習ストリームとテキストマッチング学習ストリームが含まれています。(1) 属性プロンプト学習は、画像-属性アライメントのために属性プロンプトを利用し、これによりテキストマッチング学習が強化されます。(2) テキストマッチング学習は細かい詳細での表現学習を促進し、逆に属性プロンプト学習を向上させます。多数の実験により、MALSでの前学習の有効性が確認され、APTMを通じて3つの挑戦的な実世界ベンチマークで最先端の検索性能が達成されました。特に、APTMはCUHK-PEDES、ICFG-PEDES、RSTPReidデータセットにおいてそれぞれ+6.96%、+7.68%、+16.95%というRecall@1精度で一貫した改善を達成しており、明確な差異があります。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています