
要約
本研究の目的は、対照的言語・画像事前学習(CLIP)を代表とする大規模な事前学習済み視覚・言語モデルを、さまざまな教師信号設定下でのオブジェクト再識別(Re-ID)の性能向上に適応することである。近年、プロンプト学習を活用したCLIP-ReIDという手法が有望な成果を上げているが、Re-IDタスクでは意味的なラベルが存在しないため、プロンプト学習の背後にあるメカニズムやその必要性については依然として不明確である。本研究では、まずCLIP-ReIDにおけるプロンプト学習の役割を分析し、その限界を特定する。これらの検討に基づき、教師ありオブジェクトRe-ID向けにシンプルかつ効果的なCLIPの適応手法を提案する。本手法は、プロンプト学習を不要とするために、プロトタイプ対比学習(PCL)損失を用いてCLIPの画像エンコーダを直接微調整する。人物および車両Re-IDデータセットにおける実験結果から、CLIP-ReIDと比較しても競争力のある性能を示した。さらに、本研究で提案するPCLに基づくCLIP微調整アプローチを無教師設定に拡張し、最先端の性能を達成した。