
要約
本論文の目的は、単一の写真または動画内で追跡された複数の顔画像から顔認識を行うことである。近年のこの分野における進展は、主に以下の2つの要因に起因している:(i)畳み込みニューラルネットワーク(CNN)を用いたタスクに対するエンド・ツー・エンド学習、および (ii) 超大規模なトレーニングデータセットの入手可能性である。本研究では以下の2つの貢献を行う。第一に、自動化と人間の参加(human-in-the-loop)を組み合わせることで、非常に大規模なデータセット(260万枚の画像、2,600人以上)を構築する方法を提示し、データの純度と処理時間のトレードオフについて議論する。第二に、深層ネットワークのトレーニングおよび顔認識の複雑性を体系的に検討し、標準的なLFWおよびYTF顔認識ベンチマークにおいて、最先端の性能と同等の結果を達成するための手法とプロトコルを提示する。