
摘要
情感是用户生成视频中的关键元素。然而,由于用户生成内容的复杂性和非结构化特性以及表达情感的视频帧稀疏性,理解这些视频中传达的情感变得十分困难。在本文中,我们首次研究了从异构外部资源(包括图像和文本数据)转移知识以促进理解视频情感的三个相关任务:情感识别、情感归因和情感导向总结。具体而言,我们的框架(1)通过从辅助的情感图像数据集中学习视频编码来改进监督下的视频情感识别;(2)从辅助的文本语料库中转移知识,以实现对训练过程中未见过的情感类别的零样本识别。所提出的知识转移技术有助于新型应用的情感归因和情感导向总结。我们在多个数据集上进行了一系列全面的实验,证明了该框架的有效性。