
本研究は、チームスポーツの放送映像における選手再識別(player re-identification)に焦点を当てる。具体的には、試合中の任意の瞬間において、異なるカメラ視点から撮影された画像から同一選手を特定することに注力する。このタスクは、従来の人間再識別(person re-id)の応用といくつかの重要な点で異なる。第一に、同じチームの選手は非常に類似したユニフォームを着用しているため、区別が困難となる。第二に、各個人の識別子(identity)に対して利用可能なサンプル数が極めて少ないため、再識別システムの学習が困難である。第三に、画像の解像度が低く、かつ大きくばらつきが生じることが多い。これに加えて、選手の動きが速く、重度の隠蔽(occlusion)が頻発するため、再識別の課題はさらに複雑化している。本論文では、シンプルながら効果的な階層的データサンプリング手順と、重心損失関数(centroid loss function)を提案する。これらを組み合わせることで、ネットワーク構造やハイパーパラメータを一切変更せずに、平均正解率(mean average precision, mAP)を7~11.5ポイント、ランク1正解率(rank-1, R1)を8.8~14.9ポイント向上させた。本研究で提案するデータサンプリング手順は、学習時とテスト時のデータ分布の類似性を高め、埋め込み表現(embedding)の重心(centroid)のより良い推定を可能にする。驚くべきことに、本研究では、データ量が極めて限られた環境(本研究の設定に該当)において、ユークリッド距離に基づく単純な重心損失関数が、一般的に用いられるトリプレット・重心損失関数(triplet-centroid loss function)を大きく上回ることが示された。本手法は、畳み込みニューラルネットワーク(CNN)と視覚変換器(vision transformer)の両方において、同等の改善効果を示した。また、SoccerNet Re-Identification Challenge 2022のテストスプリットにおいて、mAP 86.0、R1 81.5を達成し、トップクラスの性能を発揮した。また、非公開のチャレンジスプリットでは、mAP 84.9、R1 80.1を達成した。スポーツ関連の再識別に関する研究は極めて限られており、本研究はこの分野における初期の議論の一つとして、学術文献において重要な意義を持つ。