
摘要
情感理解是人工通用智能的一个重要但极具挑战性的组成部分。缺乏大量注释的数据集严重阻碍了该领域的进展。我们提出了EmotionCLIP,这是首个仅使用未整理数据从言语和非言语交流中提取视觉情感表示的预训练范式。与之前方法中使用的数值标签或描述相比,交流自然包含情感信息。此外,从交流中获取情感表示更符合人类的学习过程。我们通过主体感知上下文编码引导EmotionCLIP关注非言语情感线索,并通过情感导向对比学习关注言语情感线索。广泛的实验验证了EmotionCLIP的有效性和可迁移性。仅使用线性探测评估协议,EmotionCLIP在各种基准测试中超越了最先进的监督视觉情感识别方法,并与许多多模态方法相媲美。我们预计EmotionCLIP的出现将解决情感理解领域普遍存在的数据稀缺问题,从而促进相关领域的进步。代码和预训练模型可在https://github.com/Xeaver/EmotionCLIP 获取。