摘要
过去二十年来,众多研究者一直在致力于构建稳健的情绪识别系统。这类系统有望将人机交互提升至全新水平,通过分析用户的情绪状态,实现更加自然的反馈。然而,该领域的一个关键挑战在于模型泛化能力不足:当模型在某一数据集上训练并在另一数据集上评估时,其性能往往出现显著下降。尽管已有部分研究尝试解决该问题,但视觉模态的研究仍相对薄弱。为此,本文基于八个在采集条件、参与者外貌特征以及数据处理复杂度方面各不相同的语料库,开展了一项视觉跨语料库的系统性研究。我们提出了一种基于视觉的端到端情绪识别框架,该框架包含一个鲁棒的预训练主干网络(backbone model)和一个时序子系统,用于建模视频序列中多帧之间的时序依赖关系。此外,本文对主干模型的优缺点及错误模式进行了深入分析,充分验证了其出色的泛化能力。实验结果表明,该主干模型在AffectNet数据集上取得了66.4%的准确率,超越了当前所有最先进的方法。同时,在跨语料库实验中,CNN-LSTM模型在动态视觉数据集上也表现出良好的性能,其结果与当前最先进水平相当。为促进后续研究,我们已将主干模型及CNN-LSTM模型开源,相关代码和模型可于GitHub平台获取。