6 个月前

摘要

本文首先研究了ImageNet预训练对细粒度面部表情识别（Fine-Grained Facial Emotion Recognition, FER）的影响，结果表明：当对图像施加充分的数据增强时，从零开始训练（training from scratch）的表现优于在ImageNet预训练模型上进行微调（fine-tuning）。随后，本文提出一种用于提升细粒度及真实场景下（in-the-wild）面部表情识别性能的方法，称为混合多任务学习（Hybrid Multi-Task Learning, HMTL）。HMTL在传统的监督学习（Supervised Learning, SL）框架中引入自监督学习（Self-Supervised Learning, SSL）作为辅助任务，以多任务学习（Multi-Task Learning, MTL）的形式进行联合训练。通过在训练过程中融合SSL，模型能够从图像中获取额外的表征信息，从而增强主任务——细粒度监督学习任务的性能。为验证所提HMTL在FER领域的适用性，本文设计了两种针对常见预文本任务（pre-text tasks）的定制化变体，分别为拼图（puzzling）与图像修复（in-painting）。实验结果表明，仅使用这两种HMTL策略，无需依赖额外数据的预训练，即可在AffectNet基准上取得当前最优（state-of-the-art）性能。对比常规自监督学习预训练与所提出的HMTL方法的实验结果，充分展示了本文方法在性能上的显著优势与创新性。值得注意的是，HMTL的应用并不仅限于面部表情识别领域。在两个其他细粒度面部任务——头部姿态估计（head pose estimation）与性别识别（gender recognition）上的实验进一步验证了HMTL在提升细粒度面部表征能力方面的广泛潜力，展现出其作为通用增强框架的可行性与有效性。

源 PDF