
摘要
年龄估计是计算机视觉中的一个经典学习问题。许多更大更深的卷积神经网络(CNN)已被提出并展现出令人鼓舞的性能,例如AlexNet、VggNet、GoogLeNet和ResNet。然而,这些模型在嵌入式/移动设备上并不实用。最近,MobileNets和ShuffleNets被提出以减少参数数量,生成轻量级模型。然而,由于采用了深度可分离卷积,这些模型的表示能力有所减弱。在这项工作中,我们研究了小规模图像紧凑模型的极限,并提出了一种极其紧凑且高效的级联上下文年龄估计模型(C3AE)。该模型的参数量仅为MobileNets/ShuffleNets的1/9和VggNet的1/2000,但其性能依然具有竞争力。特别地,我们通过两点表示法重新定义了年龄估计问题,并通过级联模型实现。此外,为了充分利用面部上下文信息,我们提出了多分支CNN网络来聚合多尺度上下文信息。实验在三个年龄估计数据集上进行。结果表明,在紧凑模型方面,我们的方法以较大的优势达到了当前最佳性能。