2ヶ月前

CLIP-ReID: 具体的なテキストラベルなしでビジョン言語モデルを活用した画像再識別

Siyuan Li; Li Sun; Qingli Li
CLIP-ReID: 具体的なテキストラベルなしでビジョン言語モデルを活用した画像再識別
要約

事前学習された視覚言語モデル(例如、CLIP)は最近、画像分類やセグメンテーションを含む様々な下流タスクにおいて優れた性能を示しています。しかし、細かい粒度の画像再識別(ReID)では、ラベルがインデックスであり、具体的なテキスト説明が欠けています。したがって、これらのモデルがどのようにこれらのタスクに適用できるかはまだ明らかではありません。本論文ではまず、CLIPの画像エンコーダで初期化された視覚モデルを単純に微調整するだけで、様々なReIDタスクにおいて競争力のある性能を得られることを見出しました。次に、より良い視覚表現を促進するための二段階戦略を提案します。このアイデアの核心は、各IDに対して学習可能なテキストトークンのセットを使用し、CLIPにおけるクロスモーダル記述能力を十分に活用して曖昧な説明を作成することです。第一段階の訓練では、CLIPから得られる画像エンコーダとテキストエンコーダは固定され、バッチ内で計算されるコントラスティブ損失によってテキストトークンのみがゼロから最適化されます。第二段階では、ID固有のテキストトークンとそのエンコーダが静的な状態となり、画像エンコーダの微調整に対する制約を提供します。下流タスクで設計された損失関数のおかげで、画像エンコーダは特徴埋め込み空間においてデータをベクトルとして正確に表現することが可能となります。提案された戦略の効果は、人物や車両のReIDタスクに関する複数のデータセットで検証されています。コードは https://github.com/Syliz517/CLIP-ReID で利用可能です。翻訳ポイント専門用語:「事前学習」「視覚言語モデル」「下流タスク」「画像分類」「セグメンテーション」「細かい粒度の画像再識別(ReID)」「ラベル」「インデックス」「具体的なテキスト説明」「初期化」「微調整」「クロスモーダル記述能力」「学習可能なテキストトークン」「コントラスティブ損失」「特徴埋め込み空間」などの専門用語を使用し、技術的な正確さを保ちました。表現の自然さ:日本語での自然な表現を目指し、「見出しました」や「おかげで」などを使いながらも正式な文体を維持しました。形式的・客観的:全体的に形式的かつ客観的な書き方を取り入れました。忠実性:原文の内容に忠実でありつつ、日本語読者にとって理解しやすいように文章構造を最適化しました。