
摘要
我们提出了一种新的卷积神经网络方法,以解决多视角动态面部动作单元检测的细粒度识别问题。通过将预测人类面部静态图像中特定动作单元存在与否的任务视为整体分类,我们利用了大规模物体识别领域的最新进展。接着,我们探索了该方法的设计空间,考虑了不同动作单元之间的共享和独立表示,并研究了不同的CNN架构来结合颜色和运动信息。随后,我们转向FERA 2017挑战赛的新设置,在此设置中,我们提出了该方法的多视角扩展版本,该版本首先预测视频的拍摄视角,然后评估为该特定视角训练的动作单元检测器集合。我们的方法具有整体性、高效性和模块化的特点,因为可以轻松地在系统中添加新的动作单元。与FERA 2017挑战赛的基线相比,我们的方法在F1指标上绝对提升了14%。此外,它在性能上也优于FERA 2017挑战赛的获胜者。源代码可在https://github.com/BCV-Uniandes/AUNets 获取。