
教師あり人物再識別(re-identification, re-ID)手法は、高品質なクロスカメラ訓練ラベルに大きく依存しており、これが実世界への展開を著しく妨げている。一方、教師なし人物再識別手法はデータアノテーションコストを低減できるが、依然として教師あり手法に比べて性能が大きく劣っている。本論文では、データセットから抽出した補助情報(カメラ情報、時間情報、空間情報など)を活用し、マルチモーダル特徴学習を実現する。具体的には、カメラのスタイルバイアスの分析、歩行者の運動軌跡の特性、カメラネットワークの配置構造を基に、以下の3つのモジュールを設計した:時間的重複制約(Time-Overlapping Constraint, TOC)、空間時間的類似性(Spatio-Temporal Similarity, STS)、同一カメラペナルティ(Same-Camera Penalty, SCP)。これらの補助情報は、関連性制約の構築や視覚特徴との融合を通じて、モデルの性能向上および推論精度の向上に寄与する。さらに、本研究では3つの有効な訓練テクニックを提案する:制限付きラベルスムージング交差エントロピー損失(Restricted Label Smoothing Cross Entropy Loss, RLSCE)、重み適応型トリプレット損失(Weight Adaptive Triplet Loss, WATL)、動的訓練イテレーション(Dynamic Training Iterations, DTI)。これらの手法を用いることで、MARSデータセットおよびDukeMTMC-VideoReIDデータセットにおいて、それぞれ72.4%および81.1%のmAPを達成した。補助情報活用モジュールと組み合わせることで、DukeMTMCデータセットにおいて89.9%のmAPを達成し、TOC、STS、SCPの各モジュールが顕著な性能向上に貢献した。本手法は、既存の多数の教師なし再識別手法を上回り、教師あり手法との性能ギャップを著しく縮小した。本研究の実装コードは、https://github.com/tenghehan/AuxUSLReID にて公開されている。