オンライン関係正則化を用いた構造的ドメイン適応による教師なし人物再識別

教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ラベル付きのソースドメインデータセットで学習されたモデルを、ラベルなしのターゲットドメインデータセットに適応させるタスクを目的としている。特に、オープンセットの人物再識別(re-ID)におけるUDAは、両ドメイン間で識別子(クラス)が完全に重複しないという点で、より高い課題性を持つ。これまでの主要な研究アプローチの一つとしてドメイン翻訳(domain translation)が提案されてきたが、最近では偽ラベル(pseudo-label)に基づく手法に比べて性能が劣るため、その有用性は低下傾向にあった。本研究では、ドメイン翻訳が貴重なソースドメインデータを有効に活用する可能性を秘めていると主張する。しかし、従来の手法は翻訳プロセスに対して適切な正則化を提供しておらず、その点が性能の限界を生んでいると考える。具体的には、従来の手法は翻訳後の画像の識別子の保持にのみ注目しているが、翻訳過程におけるサンプル間の関係性(inter-sample relations)を無視している。この課題に対処するため、オンラインで関係性の一貫性(relation-consistency)を正則化する項を含む、エンド・ツー・エンドの構造的ドメイン適応フレームワークを提案する。訓練過程において、人物特徴エンコーダは、関係性の一貫性を保つようにドメイン翻訳を監督するため、リアルタイムでサンプル間の関係をモデル化するよう最適化される。この翻訳により得られた情報豊富な画像は、エンコーダの性能向上に寄与する。さらに、偽ラベルを用いた学習によりエンコーダを強化でき、ソースからターゲットに翻訳された画像(真のラベル付き)と、ターゲットドメインの画像(偽ラベル付き)を統合的に用いて学習を行う。実験結果から、本フレームワークは複数の人物再識別におけるUDAタスクで最先端の性能を達成することが示された。また、構造的ドメイン翻訳ネットワークによって生成された「合成→実世界」の画像を用いて、2020年のVisual Domain Adaptation Challenge(VisDA)において2位の成績を収めた。