摘要
面部表情是非语言交流中至关重要的形式,能够传达丰富多样的情感。近年来,人工智能与计算机视觉技术的快速发展推动了深度学习方法的广泛应用,尤其是卷积神经网络(Convolutional Neural Networks, CNNs),在面部情绪识别(Facial Emotion Recognition, FER)任务中表现出卓越性能。本文提出了一种先进的深度学习框架——EmoNeXt,该框架基于改进的ConvNeXt架构,并引入多项关键创新。EmoNeXt融合了空间变换网络(Spatial Transformer Networks),使模型能够聚焦于面部最具表现力的区域;引入挤压-激励模块(Squeeze-and-Excitation Blocks),以增强通道间的依赖关系;同时设计了一种自注意力正则化项,促使模型学习到更为紧凑且具有判别性的特征向量。最初在FER2013数据集上进行评估后,EmoNeXt进一步在两个广泛使用的基准数据集AffectNet和CK+上进行了验证,充分展示了其在真实场景与摆拍场景下均具备良好的鲁棒性与泛化能力。此外,本文开展了详尽的消融实验,系统分析并量化了各项改进模块对模型性能的贡献,证实了各组件的积极影响。最后,本研究探索了EmoNeXt在阿尔茨海默病老年患者情绪识别中的应用,凸显了精准情绪识别在提升患者照护质量方面的迫切需求。实验结果表明,EmoNeXt具有作为医疗场景中增强情感交互能力的重要工具的潜力,尤其适用于神经退行性疾病患者群体。