
顔認識のために提案されている畳み込みニューラルネットワーク(CNN)モデルの数は、大量の訓練データに更好地合するため、継続的に増加しています。インターネットから訓練データを取得した場合、ラベルが曖昧で不正確である可能性が高いです。本論文では、大規模な顔データと大量のノイジーなラベルを使用してコンパクトな埋め込みを学習するLight CNNフレームワークを提示します。まず、CNNの各畳み込み層にmaxout活性化関数の変種であるMax-Feature-Map(MFM)を導入します。maxout活性化関数が多くの特徴マップを使用して任意の凸活性化関数を線形近似するのに対し、MFMは競争的な関係を通じてこれを達成します。MFMはノイジーな信号と有用な信号を分離するだけでなく、2つの特徴マップ間での特徴選択も行います。次に、性能向上と同時にパラメータ数と計算コストを削減するために3つのネットワークが慎重に設計されています。最後に、セマンティックブートストラッピング手法が提案され、ネットワークの予測結果がノイジーなラベルとより一貫性を持つようにしています。実験結果は、提案されたフレームワークが大規模なノイジーなデータを利用し、計算コストと記憶領域において効率的なLightモデルを学習できることを示しています。学習された単一ネットワークは256次元表現を持ち、微調整なしで様々な顔認識ベンチマークで最先端の結果を達成しています。コードは https://github.com/AlfredXiangWu/LightCNN で公開されています。注:「更好地合」という表現は中国語であり、「更好地适应」(better fit)の方が適切と思われますので、「better fit」に基づいて翻訳しました。