2ヶ月前

より良い妥当性へ:非監督個人再識別向けの分散に基づくクラスタリング

Guodong Ding; Salman Khan; Zhenmin Tang; Jian Zhang; Fatih Porikli
より良い妥当性へ:非監督個人再識別向けの分散に基づくクラスタリング
要約

人物再識別は、非重複領域のマルチカメラシステムを通過する人物の正しく一貫した同一性対応を確立することを目指しています。このタスクに対する最近の深層学習モデルに基づく進歩は、主に各セットアップに対して正確なアノテーションが利用可能であると想定される教師あり学習シナリオに焦点を当てています。大規模データセットの人々再識別のためのアノテーション作業は困難かつ負担が大きく、これにより現実的なアプリケーションへの教師ありアプローチの展開が不可能となっています。したがって、明示的な教師なしで自律的にモデルを訓練することが必要です。本論文では、クラスタ有効性考慮に基づく教師なし人物再識別のための優雅で実用的なクラスタリング手法を提案します。具体的には、統計学における基本概念である\emph{分散(dispersion)}を探求し、堅牢なクラスタリング基準を達成します。分散は、クラスタ内レベルで使用されるときにはクラスタの凝集度を反映し、クラスタ間レベルで測定されるときには分離度を明らかにします。この洞察に基づいて、我々はデータに潜在するパターンを見出すことができる新しい分散ベースのクラスタリング(Dispersion-based Clustering: DBC)手法を設計しました。この手法はサンプルレベルでのペアワイズ関係性のより広いコンテキストを考えることで堅牢なクラスタ親和性評価を行い、一般的な不均衡データ分布によって生じる可能性のある問題に対処します。さらに、我々のソリューションは自動的に孤立したデータポイントを優先し、劣ったクラスタリングを防ぎます。画像およびビデオ再識別ベンチマークに対する我々の包括的な実験分析は、提案手法が既存の最先端教師なし方法よりも大幅に優れていることを示しています。コードは https://github.com/gddingcs/Dispersion-based-Clustering.git から入手可能です。注:「dispersion」については「分散」と訳しましたが、「散逸」や「拡散」なども使用されることがあります。ただし、「分散」の方が統計学や機械学習分野での一般的な用語として広く認識されていますので、「分散」を使用しました。「cluster validity consideration」については「クラスタ有効性考慮」と訳しました。「standalone data points」については「孤立したデータポイント」と訳しましたが、「単独のデータポイント」なども考えられます。