要約
車両再識別(re-id)における根本的な課題の一つは、異なるカメラ視点間で顕著なクラス内変動が生じる中で、頑健かつ判別力のある視覚的表現を学習することである。既存の車両データセットは学習画像の数や視点の多様性に限界があるため、本研究では4つの公開車両データセットを統合して、独自の大規模車両データセット(VehicleNet)を構築することを提案する。さらに、VehicleNetからより頑健な視覚的表現を学習するための、新規かつ効果的な2段階プログレッシブアプローチを設計した。本手法の第一段階では、従来の分類損失を用いて、すべてのドメイン(すなわち、ソース車両データセット)に対して汎用的な表現を学習する。この段階では、学習ドメインとテストドメイン間の完全なアライメントを要求しないため、ターゲット車両ドメインに依存しない。第二段階では、学習済みモデルをターゲット車両データセットに基づいて微調整し、VehicleNetと任意のターゲットドメイン間の分布差を最小化する。本研究では、複数のソースデータセットから構成されるVehicleNetの構築手法を提示し、2段階プログレッシブ表現学習の有効性を広範な実験を通じて評価した。AICity Challengeのプライベートテストセットにおいて、86.07%のmAPという最先端の精度を達成し、VeRi-776およびVehicleIDという2つの他の公開車両再識別データセットにおいても競争力のある結果を示した。本研究で提案するVehicleNetデータセットおよび学習された頑健な表現が、実世界環境における車両再識別研究の発展に貢献することを期待している。