
摘要
在人类面部检测动作单元(AUs)是一项具有挑战性的任务,因为不同的动作单元会在不同区域以不同尺度引起细微的面部外观变化。目前的研究工作试图通过强调重要区域来识别动作单元。然而,将专家先验知识融入区域定义中尚未得到充分利用,现有的动作单元检测方法也没有使用带有专家先验知识的区域卷积神经网络(R-CNN)直接自适应地关注与动作单元相关的区域。为此,我们提出了一种基于R-CNN的新模型,命名为AU R-CNN。该解决方案主要贡献了两个方面:(1) AU R-CNN直接观察到包含各种动作单元的不同面部区域。具体而言,我们定义了一个动作单元分区规则,将专家先验知识编码到区域定义和RoI级别的标签定义中。这一设计显著提高了检测性能,优于现有方法。(2) 我们将多种动态模型(包括卷积长短期记忆网络、双流网络、条件随机场和时间动作定位网络)集成到AU R-CNN中,并对其性能背后的原因进行了研究和分析。实验结果表明,仅使用静态RGB图像信息而不使用光流的AU R-CNN超过了融合动态模型的方法。此外,AU R-CNN在不同图像分辨率下也优于使用相同主干的传统卷积神经网络(CNNs)。我们的方法实现了当前最先进的动作单元检测识别性能。整个网络可以进行端到端训练。在BP4D和DISFA数据集上的实验验证了我们方法的有效性。实现代码已在线提供。