4ヶ月前

概要

顔認識に向けた畳み込みニューラルネットワーク（CNN）モデルの容量は、大量の訓練データに適応させるために継続的に増大している。特にインターネットから取得された訓練データの場合、ラベルは曖昧で正確でない可能性が高い。本論文では、多数のノイズを含むラベルを有する大規模顔データ上で、コンパクトな埋め込み表現を学習するための「Light CNN」フレームワークを提案する。まず、CNNの各畳み込み層に、マックスアウト活性化関数の変種である「Max-Feature-Map（MFM）」を導入する。マックスアウト活性化関数は複数の特徴マップを用いて任意の凸活性化関数を線形近似するのに対し、MFMは特徴マップ間の競合関係を通じて同様の近似を実現する。これにより、ノイズ信号と有用な信号を分離するだけでなく、2つの特徴マップ間での特徴選択機能も果たすことができる。次に、性能向上を図りつつパラメータ数と計算コストを削減する目的で、3つのネットワーク構造を丁寧に設計した。さらに、ネットワークの予測がノイズラベルとより一貫性を持つようにするため、意味的ブートストラップ法を提案する。実験結果から、提案フレームワークは大規模なノイズを含むデータを活用し、計算コストおよびメモリ使用量が少ない「Light」モデルを学習可能であることが示された。256次元の表現を持つ単一ネットワークは、微調整なしに複数の顔認識ベンチマークで最先端の性能を達成した。本研究のコードは、https://github.com/AlfredXiangWu/LightCNN にて公開されている。

ソースPDF