17日前

FlipReID：人物再識別における訓練と推論のギャップを埋める

Xingyang Ni, Esa Rahtu

要約

ニューラルネットワークはデータを大量に必要とするため、トレーニングにおいてデータ拡張（data augmentation）を導入することは、データセットを拡大し、汎化性能を向上させるために広く採用されている手法である。一方で、複数の拡張されたサンプルの予測結果を統合する（いわゆる「テスト時拡張（test-time augmentation）」）ことで、さらなる性能向上が可能となる。人物再識別（person re-identification）モデルの文脈では、元画像とその水平方向に反転した画像の両方に対して埋め込み表現（embedding）を抽出し、最終的な表現としてそれらの特徴ベクトルの平均値を用いることが一般的である。しかし、この手法にはトレーニング段階と推論段階のギャップが生じるという問題がある。すなわち、推論時に計算される平均特徴ベクトルは、トレーニングプロセスに含まれていない。本研究では、この問題に対処するため、反転損失（flipping loss）を導入したFlipReID構造を提案する。具体的には、FlipReID構造を用いたモデルは、元画像と反転画像の両方を同時に学習対象とし、反転損失を用いて対応する画像ペアの特徴ベクトル間の平均二乗誤差を最小化する。広範な実験の結果、本手法は一貫して性能向上をもたらすことが示された。特に、最大規模の人物再識別データセットであるMSMT17において、新たな記録を樹立した。ソースコードは以下のURLで公開されている：https://github.com/nixingyang/FlipReID。