摘要
近年来,人格计算(personality computing)与情感计算(affective computing)在多个研究领域中受到越来越多的关注,其中人格特质的识别尤为关键。本文提出一种新颖的方法,用于从视频中识别个体的五大人格特质(Big Five personality traits)。为此,我们融合四种不同模态的信息:环境外观(场景)、面部外观、语音以及转录文本。针对每一种模态,我们设计了专用的子网络,以学习具有可靠性的模态特异性表征,并通过一种注意力机制对这些表征的各个维度进行重新加权,从而实现多模态信息的最优融合。为确保模型在预测各人格特质时具有均衡的重要性,我们引入了一种新型损失函数,该函数通过一致性约束,使各特质的预测误差尽可能接近,从而避免某些特质被过度优化而其他特质被忽略。为进一步提升模型的可靠性,我们在各模态子网络中采用(预训练的)当前最先进的架构作为主干网络,包括ResNet(用于视觉)、VGGish(用于音频)和ELMo(用于文本),并辅以多层长短期记忆网络(LSTM)以捕捉时间动态特性。为降低多模态优化的计算复杂度,我们采用两阶段建模策略:首先分别独立训练各模态子网络,随后对整个网络进行联合微调,以协同建模多模态数据。在大规模的ChaLearn First Impressions V2挑战赛数据集上,我们评估了所提模型的可靠性,并进一步分析了各模态的信息贡献度。实验结果表明,所提出的注意力机制与误差一致性约束均有效提升了模型性能。尽管在单一模态中,面部信息表现最优,但当融合全部四种模态时,我们的模型实现了91.8%的平均准确率,显著超越了当前自动人格分析领域的最先进水平。