7 个月前

摘要

我们提出了一种结合卷积神经网络（CNN）自动学习的特征和基于视觉词汇袋（BOVW）模型计算的手工特征的方法，以实现面部表情识别领域的最先进结果。为了获得自动特征，我们实验了多种CNN架构、预训练模型和训练方法，例如密集-稀疏-密集（Dense-SSparse-Dense）。在融合这两种类型的特征之后，我们采用了一个局部学习框架来预测每个测试图像的类别标签。该局部学习框架基于三个步骤。首先，应用k近邻模型选择与输入测试图像最近的训练样本。其次，在选定的训练样本上训练一个一对多支持向量机（SVM）分类器。最后，仅使用该SVM分类器对它所训练的测试图像进行类别标签预测。尽管我们在之前的工作中已经使用了局部学习与手工特征的组合，据我们所知，局部学习从未与深度特征结合使用过。在2013年面部表情识别（FER）挑战数据集、FER+数据集和AffectNet数据集上的实验表明，我们的方法达到了最先进水平。在FER 2013数据集上最高准确率为75.42%，在FER+数据集上为87.76%，在AffectNet 8类分类任务中为59.58%，在AffectNet 7类分类任务中为63.31%，我们在所有数据集上的表现均超过了现有最先进方法超过1%。

源 PDF