
画像検索タスクとは、ギャラリー(データベース)画像群からクエリ画像と類似する画像を検索するタスクである。このようなシステムは、人物再識別(ReID)や視覚的製品検索など、さまざまな応用に用いられている。検索モデルの開発が活発に行われているにもかかわらず、視点の変化、照明条件、背景の雑多さ、遮蔽などの要因によって生じるクラス内変動(intra-class variance)が大きく、一方でクラス間変動(inter-class variance)は比較的小さいという点から、依然として困難な課題のままである。現在の研究の大部分は、より堅牢な特徴量の生成や、通常トリプレット損失(Triplet Loss)に基づく目的関数の改良に注力している。一部の研究では、トリプレット損失と併用する際の計算速度の低下やハードサンプル抽出の問題を緩和するため、クラスの重心(centroid)またはプロキシ表現を用いる試みも行われている。しかし、これらのアプローチは訓練段階でのみ利用され、検索段階では放棄されるのが一般的である。本論文では、訓練段階および検索段階の両方で平均重心表現(mean centroid representation)を活用する手法を提案する。この集約表現は外れ値に対してより頑健であり、より安定した特徴量の生成を保証する。各クラスを1つの埋め込み(embedding)であるクラス重心で表現するため、検索時間とストレージ要件が大幅に削減される。複数の埋め込みを集約することで、候補となるターゲットベクトルの数が著しく減少し、検索空間が大幅に縮小されるため、本手法は実用的導入(production deployment)に特に適している。2つのReIDおよびファッション画像検索データセットを用いた包括的な実験により、本手法の有効性が実証され、現在の最先端技術を上回る性能を達成した。本研究では、ファッション画像検索およびReIDアプリケーションにおいて、重心を用いた訓練および検索手法が実用可能であることを提案する。