FaceNet: 顔認識とクラスタリングのための統一された埋め込み

顔認識分野における最近の著しい進歩にもかかわらず、大規模な顔認証と認識を効率的に実装することは、現行の手法にとって依然として大きな課題となっています。本論文では、FaceNetと呼ばれるシステムを提案します。このシステムは、顔画像から直接ユークリッド空間へのマッピングを学習し、その距離が顔の類似度の尺度に対応するように設計されています。この空間が生成されると、FaceNet埋め込みを特徴ベクトルとして使用することで、標準的な技術を使用して顔認識、認証、クラスタリングなどのタスクを容易に実装することができます。当手法は、深層畳み込みネットワークを使用し、中間ボトルネック層ではなく埋め込み自体の最適化に直接訓練を行う点で、以前の深層学習アプローチとは異なります。訓練には、新しいオンライン三重項マイニング手法を使用して生成された大まかに整列された一致/非一致顔パッチの三重項を利用します。当アプローチの利点は表現効率が大幅に向上することです:1枚あたり128バイトという非常に少ないデータ量で最先端の顔認識性能を達成しています。広く使用されている「Labeled Faces in the Wild (LFW)」データセットにおいて、当システムは99.63%という新たな記録精度を達成しました。YouTube Faces DBでは95.12%の精度を達成しています。両データセットにおいても、既存の最高結果と比較して誤り率が30%削減されました。また、「調和的埋め込み」と「調和的三重項損失」という概念を導入します。これらは異なるネットワークによって生成される異なるバージョンの顔埋め込みが互いに互換性を持ち、直接比較できるようにするためのものです(harmonic embeddings, harmonic triplet loss)。