DLCR: 拡散を用いた生成データ拡張フレームワークによる衣服変更個人再識別

生成拡散モデルの最近の強さを受けて、これらのモデルによって生成された画像がより良い視覚表現を学習するために使用できるかどうかは、未解決の研究課題となっています。この生成データの拡張は比較的簡単な視覚タスクには十分かもしれませんが、私たちはその効果をより難しい識別タスクである衣服変更人物再識別(CC-ReID)で探求します。CC-ReIDは、カメラ間で衣服が変わった場合でも非重複カメラに登場する人物をマッチングすることを目指しています。現在のCC-ReIDモデルは、現行のCC-ReIDデータセットにおける衣服の多様性の制限に加えて、重要な個人特徴を保ちつつ追加データを生成することが課題となっています。この問題に対処するため、私たちはDLCRと呼ばれる新しいデータ拡張フレームワークを提案します。DLCRは事前学習済みの拡散モデルと大規模言語モデル(LLMs)を利用して、様々な衣装を持つ個々の人々の多様な画像を正確に生成します。私たちは5つのベンチマークCC-ReIDデータセット(PRCC, CCVID, LaST, VC-Clothes, LTCC)に対して追加データを生成し、それらの衣服多様性を10倍に増やしました。これにより合計210万枚以上の画像が生成されました。DLCRは、大規模言語モデルを使用して構築された衣服プロンプトに基づくテキストガイダンスによる拡散型インペイントを利用し、合成データを作成します。この方法では対象者の衣服のみが変更され、個人識別可能な特徴が保存されます。この大量のデータ増加により、私たちは訓練時間を短縮し、さらにCC-ReID性能を向上させる2つの新戦略 - ステージワイズ学習とテスト時の予測改良 - を導入しました。PRCCデータセットにおいて、DLCRで生成されたデータを使用してCALという以前の最先端(SOTA)手法を訓練することで、トップ1精度が11.3%大幅に向上しました。各データセット用に開発したコードと生成したデータは公開されており、以下のURLからアクセスできます:https://github.com/CroitoruAlin/dlcr.