
摘要
我们提出了一种结合卷积神经网络(CNN)自动学习的特征和基于视觉词汇袋(BOVW)模型计算的手工特征的方法,以实现面部表情识别领域的最先进结果。为了获得自动特征,我们实验了多种CNN架构、预训练模型和训练方法,例如密集-稀疏-密集(Dense-SSparse-Dense)。在融合这两种类型的特征之后,我们采用了一个局部学习框架来预测每个测试图像的类别标签。该局部学习框架基于三个步骤。首先,应用k近邻模型选择与输入测试图像最近的训练样本。其次,在选定的训练样本上训练一个一对多支持向量机(SVM)分类器。最后,仅使用该SVM分类器对它所训练的测试图像进行类别标签预测。尽管我们在之前的工作中已经使用了局部学习与手工特征的组合,据我们所知,局部学习从未与深度特征结合使用过。在2013年面部表情识别(FER)挑战数据集、FER+数据集和AffectNet数据集上的实验表明,我们的方法达到了最先进水平。在FER 2013数据集上最高准确率为75.42%,在FER+数据集上为87.76%,在AffectNet 8类分类任务中为59.58%,在AffectNet 7类分类任务中为63.31%,我们在所有数据集上的表现均超过了现有最先进方法超过1%。