8 个月前

摘要

人类交流是多模态的；例如，面对面互动涉及听觉信号（语音）和视觉信号（面部动作和手势）。因此，在设计基于机器学习的面部表情识别系统时，利用多种模态至关重要。此外，考虑到不断增长的视频数据量，这些系统应当能够利用未经标注的原始视频，而无需昂贵的人工标注。为此，在本研究中，我们采用了一种多任务多模态自监督学习方法来从野外视频数据中进行面部表情识别。我们的模型结合了三种自监督目标函数：首先，一种多模态对比损失函数，该函数在表示空间中将同一视频的不同模态数据拉近；其次，一种多模态聚类损失函数，该函数在表示空间中保留输入数据的语义结构；最后，一种多模态数据重建损失函数。我们在三个面部表情识别基准数据集上对这种多模态多任务自监督学习方法进行了全面的研究。为此，我们考察了通过不同组合的自监督任务在面部表情识别下游任务中的表现。我们的模型ConCluGen在CMU-MOSEI数据集上超越了多个多模态自监督和全监督基线模型。总体而言，我们的结果表明，对于像面部表情识别这样具有挑战性的任务，多模态自监督任务可以显著提高性能，同时减少所需的手动标注量。我们已公开发布预训练模型及源代码。

源 PDF