1ヶ月前

ニューラル集約ネットワークを用いたビデオ顔認識

Jiaolong Yang; Peiran Ren; Dongqing Zhang; Dong Chen; Fang Wen; Hongdong Li; Gang Hua
ニューラル集約ネットワークを用いたビデオ顔認識
要約

本論文では、ビデオ顔認識用のニューラル集約ネットワーク(Neural Aggregation Network: NAN)を提案します。このネットワークは、可変数の顔画像を含む個人の顔ビデオまたは顔画像集合を入力とし、認識のためにコンパクトで固定次元の特徴表現を生成します。ネットワーク全体は2つのモジュールから構成されています。特徴埋め込みモジュールは、各顔画像を特徴ベクトルにマッピングする深層畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)です。集約モジュールは2つのアテンションブロックからなり、これらのブロックによって特徴ベクトルが適応的に集約され、それらによって張られる凸包内に単一の特徴が形成されます。アテンションメカニズムにより、集約は画像の順序に対して不変です。我々のNANは標準的な分類または認証損失関数を使用して訓練され、追加の監督信号なしで高品質な顔画像を推奨し、低品質な画像(例えばぼけた、遮られた、露出が不適切な顔画像)を排除する能力を自動的に学習することが確認されました。IJB-A, YouTube Face, Celebrity-1000 などのビデオ顔認識ベンチマークでの実験結果から、NANは単純な集約手法よりも一貫して優れた性能を示し、最先端の精度を達成しています。