
摘要
区域学习(Region Learning, RL)与多标签学习(Multi-label Learning, ML)近年来在面部动作单元(Action Unit, AU)检测领域受到越来越多关注。由于动作单元通常仅在面部稀疏区域激活,区域学习旨在识别这些关键区域,以提升检测的特异性。另一方面,大量统计证据表明动作单元之间存在显著相关性,因此多标签学习成为建模该检测任务的自然选择。本文提出一种统一的深度网络——深度区域与多标签学习(Deep Region and Multi-label Learning, DRML),能够同时解决上述两个问题。DRML中的一个关键创新是引入了一种新型区域层(region layer),该层通过前向传播函数自动诱导出重要的面部区域,强制网络学习到的权重能够捕捉面部的结构信息。该区域层在设计上介于局部连接层(即每个像素使用独立的卷积核)与传统卷积层(即在整个图像上共享卷积核)之间,提供了一种更具灵活性的替代方案。与以往研究中交替处理区域学习与多标签学习的方式不同,DRML从架构上同时建模两个问题,使得这两个看似无关的任务能够更直接地相互作用与协同优化。整个网络为端到端可训练结构,能够自动学习对局部区域内在变化具有鲁棒性的特征表示。在BP4D与DISFA两个基准数据集上的实验结果表明,相较于现有方法,DRML在跨数据集及单数据集内部均取得了最高的平均F1分数与AUC值,验证了其优越的性能。