
摘要
不同于需要显式监督的计算机视觉系统,人类可以通过观察周围环境中的其他人来学习面部表情。在本文中,我们探讨了如何在机器视觉中开发类似的能力。作为起点,我们考虑了将面部表情与视频中可客观测量的事件关联起来的问题。具体而言,我们关注一个参赛者为了赢得大额奖金而进行的游戏节目。我们从视频中自动且客观地提取影响游戏的事件及其对应的面部表情,从而为我们的研究获得了大量标注数据。此外,我们还利用FER和SFEW 2.0等基准数据集,开发了最先进的深度神经网络用于面部表情识别,并展示了在人脸验证数据上预训练对这一任务具有显著益处。随后,我们将这些模型扩展到使用面部表情预测视频中的事件,并从中学习可命名的表情。该数据集和情感识别模型可在以下网址获取:http://www.robots.ox.ac.uk/~vgg/data/facevalue