
要約
年齢推定はコンピュータビジョンにおける古典的な学習問題である。AlexNet、VggNet、GoogLeNet、ResNetなどの大規模で深層のCNNが提案され、有望な性能を示している。しかし、これらのモデルは組み込み/モバイルデバイスでは実用的ではない。最近、パラメータ数を削減し軽量モデルを生成するためにMobileNetsとShuffleNetsが提案された。しかし、depth-wise separable convolution(深度別分離畳み込み)の採用により、表現力が弱まっている。本研究では、小規模画像に対するコンパクトモデルの限界を探るため、非常にコンパクトでありながら効率的なカスケードコンテキストベースの年齢推定モデル(C3AE: Cascade Context-based Age Estimation model)を提案する。このモデルはMobileNets/ShuffleNetsとVggNetに比べてそれぞれ1/9および1/2000のパラメータ数しか持たないにもかかわらず、競合する性能を達成している。特に、二点表現による年齢推定問題の再定義を行い、これをカスケードモデルで実装した。さらに、顔のコンテキスト情報を十分に活用するために、多岐分支CNNネットワークを提案し、多尺度コンテキストを集約する。三つの年齢推定データセット上で実験を行った結果、コンパクトモデルにおいて最先进の性能が大幅に達成された。希望这个翻译符合您的要求,如果有任何需要调整的地方,请随时告知我。