
摘要
在自动估计人类情感和心理状态时,面临诸多挑战,包括从时间分辨率低或无时间分辨率的标签中学习、从数据量有限的数据集中学习(通常由于保密限制)以及处理(非常)长的野外视频。由于这些原因,深度学习方法往往容易过拟合,即在最终回归任务上生成泛化性能较差的潜在表示。为了解决这一问题,本文提出了两项互补的贡献。首先,我们引入了一种新的关系损失函数,用于多标签回归和序数问题的学习正则化,从而实现更好的泛化效果。该损失函数利用标签向量之间的关系信息,通过将批次标签距离与潜在特征空间中的距离对齐来学习更优的潜在表示。其次,我们采用了一种两阶段注意力架构,该架构通过使用相邻片段的特征作为时间上下文来估计每个片段的目标。我们在连续情感和精神分裂症严重程度估计问题上评估了所提出的方法论,因为这两个问题在方法论和背景方面存在相似之处。实验结果表明,所提出的方法论优于所有基线方法。在精神分裂症领域,所提出的方法论大幅超越了先前的最先进水平,达到了高达78%的相关系数(PCC),接近人类专家的表现(85%),远高于以往的研究(最高提升40%)。在情感识别方面,我们在OMG和AMIGOS数据集上的连续一致性系数(CCC)均超过了以往基于视觉的方法。特别是在AMIGOS数据集上,我们在唤醒度和价态两个指标上分别比之前的最佳方法提高了9%和13%,而在OMG数据集上,则分别提高了高达5%。