
要約
本論文の目的は、テンプレートベースの顔認識のために画像集合のコンパクトな表現を学習することである。以下の貢献を行う:第一に、深層畳み込みニューラルネットワークによって生成された顔記述子を集約し、埋め込むためのネットワークアーキテクチャを提案する。このコンパクトな表現は最小限のメモリ容量を必要とし、効率的な類似度計算が可能となる。第二に、{\em ghost clusters}(ゴーストクラスタ)を含む新しいGhostVLADレイヤーを提案する。ゴーストクラスタは集約に寄与しないものである。我々は、入力顔に対する品質重み付けが自動的に現れることを示す。これにより情報量の多い画像が低品質な画像よりもより多く寄与し、ゴーストクラスタが低品質な画像への対処能力を向上させる。第三に、入力特徴量次元、クラスタ数および異なる訓練手法が認識性能にどのように影響を与えるかについて検討する。この分析に基づき、IJB-B顔認識データセットにおいて現行最先端技術を大幅に上回るネットワークを訓練した。IJB-Bは現在最も挑戦的な公開ベンチマークの一つであり、我々の方法は識別プロトコルと認証プロトコルの両方で現行最先端技術を超えた。