2ヶ月前

CLIPを用いたテキストベースの人物検索の実証研究

Cao, Min ; Bai, Yang ; Zeng, Ziyin ; Ye, Mang ; Zhang, Min
CLIPを用いたテキストベースの人物検索の実証研究
要約

テキストベースの人物検索(TBPS)は、自然言語の説明を使用して人物画像を検索することを目指しています。最近、汎用的大規模なクロスモーダル視覚言語事前学習モデルであるコントラスティブ言語画像事前学習(CLIP)が、強力なクロスモーダル意味論的学習能力により、様々なクロスモーダル下流タスクで優れた性能を発揮しています。TBPSは細かいクロスモーダル検索タスクであり、CLIPに基づくTBPSに関する研究も増加しています。本論文では、下流TBPSタスクに対する視覚言語事前学習モデルの潜在力を探究するため、初めてCLIPを用いたTBPSの包括的な実証研究を行います。これにより、単純かつ漸進的でありながら強力なTBPS-CLIP基準モデルをTBPSコミュニティに提供します。本研究では、データ拡張や損失関数などのCLIPにおける重要な設計考量点を見直します。これらの設計と実用的な訓練手法を組み合わせたモデルは、複雑なモジュールなしで満足できる性能を達成できます。さらに、モデルの汎化能力和圧縮能力についての探査実験を行い、多角的にTBPS-CLIPの有効性を示しています。本研究は実証的な洞察を提供し、今後のCLIPベースのTBPS研究への道標となることが期待されています。