13日前

Transformerベースの人物再識別における自己教師付き事前学習

Hao Luo, Pichao Wang, Yi Xu, Feng Ding, Yanxin Zhou, Fan Wang, Hao Li, Rong Jin
Transformerベースの人物再識別における自己教師付き事前学習
要約

Transformerをベースとした教師あり事前学習は、人物再識別(ReID)において優れた性能を達成している。しかし、ImageNetとReIDデータセットとの間にはドメインギャップが存在するため、Transformerの強力なデータフィッティング能力を考慮すると、性能向上のためにはより大きな事前学習データセット(例:ImageNet-21K)が必要となる場合が多い。この課題に対処するため、本研究ではデータとモデル構造の両面から、事前学習データとReIDデータ間のギャップを軽減することを目的としている。まず、ラベルなし人物画像(LUPersonデータセット)で事前学習された視覚Transformer(ViT)を用いた自己教師学習(SSL)手法を検討した結果、実証的にImageNetにおける教師あり事前学習モデルを大きく上回ることが明らかになった。さらにドメインギャップを縮小し、事前学習の高速化を図るため、事前学習データと微調整データの間のギャップを評価するための「災害的忘却スコア(Catastrophic Forgetting Score: CFS)」を提案した。CFSに基づき、下流のReIDデータに近い関連データをサンプリングし、事前学習データセットから不関連データをフィルタリングするサブセットを構築した。モデル構造面では、ドメインギャップを埋めるために、ReIDに特化したモジュールである「IBNベースの畳み込みスタム(ICS)」を提案した。このモジュールは、より不変な特徴を学習することで、異なるドメイン間の特徴マッピングを改善する。広範な実験により、教師あり学習、無教師ドメイン適応(UDA)、無教師学習(USL)の各設定下で事前学習モデルの微調整を実施した。その結果、LUPersonデータセットを50%にまで圧縮しても性能の低下が見られず、成功裏にデータセットのスケーリングダウンを実現した。最終的に、Market-1501およびMSMT17の両データセットで最先端の性能を達成した。例えば、ViT-S/16は、教師あり/UDA/USL設定下でそれぞれ91.3% / 89.9% / 89.6%のmAPを達成した。コードとモデルは、https://github.com/michuanhaohao/TransReID-SSL にて公開される予定である。