2 个月前

VLLMs 通过常识推理为情感理解提供更好的上下文

Alexandros Xenos; Niki Maria Foteinopoulou; Ioanna Ntinou; Ioannis Patras; Georgios Tzimiropoulos
VLLMs 通过常识推理为情感理解提供更好的上下文
摘要

在特定情境中识别情感涉及根据周围场景的情境线索来确定个体的明显情感。以往的方法通常包括设计显式的场景编码架构或将外部场景相关信息(如字幕)纳入其中。然而,这些方法往往利用有限的情境信息或依赖复杂的训练流程。在本研究中,我们利用了视觉-大语言模型(Vision-and-Large-Language Models, VLLMs)的突破性能力,通过两阶段方法增强情境中的情感分类,而无需增加训练过程的复杂性。在第一阶段,我们提出通过提示VLLMs生成描述主体相对于视觉情境的明显情感的自然语言描述。在第二阶段,这些描述作为情境信息,并与图像输入一起用于训练一个基于变压器的架构,该架构在最终分类任务之前融合了文本和视觉特征。我们的实验结果表明,文本和图像特征具有互补信息,且我们的融合架构在没有任何复杂训练方法的情况下显著优于单一模态。我们在三个不同的数据集上评估了我们的方法,即EMOTIC、CAER-S和BoLD,在所有数据集和指标上均达到了最先进的或相当的准确性,相比之下这些方法更为复杂。代码将在GitHub上公开发布:https://github.com/NickyFot/EmoCommonSense.git