vor 2 Monaten

VLLMs bieten bessere Kontexte für die Emotionsverstehens durch Common-Sense-Reasoning

Alexandros Xenos; Niki Maria Foteinopoulou; Ioanna Ntinou; Ioannis Patras; Georgios Tzimiropoulos

Abstract

Die Erkennung von Emotionen im Kontext beinhaltet die Identifizierung der offensichtlichen Emotionen einer Person unter Berücksichtigung kontextueller Hinweise aus der umgebenden Szene. Frühere Ansätze für diese Aufgabe haben explizite Szenencodierungsarchitekturen entwickelt oder externe, szenenbezogene Informationen wie Bildunterschriften integriert. Diese Methoden nutzen jedoch oft begrenzte kontextuelle Informationen oder basieren auf komplizierten Trainingspipelines. In dieser Arbeit nutzen wir die bahnbrechenden Fähigkeiten von Vision-and-Large-Language Modellen (VLLMs), um die Emotionsklassifikation im Kontext zu verbessern, ohne die Komplexität des Trainingsprozesses zu erhöhen, und zwar in einem zweistufigen Ansatz. Im ersten Stadium schlagen wir vor, VLLMs durch Anweisungen dazu zu veranlassen, natürlichsprachliche Beschreibungen der offensichtlichen Emotionen des Subjekts im Verhältnis zum visuellen Kontext zu generieren. Im zweiten Stadium werden diese Beschreibungen als kontextuelle Information verwendet und zusammen mit den Bildinformationen eingesetzt, um eine transformerbasierte Architektur zu trainieren, die textuelle und visuelle Merkmale fusioniert, bevor die endgültige Klassifizierung erfolgt. Unsere experimentellen Ergebnisse zeigen, dass textuelle und visuelle Merkmale ergänzende Informationen liefern und unsere fusionierte Architektur erheblich bessere Leistungen zeigt als die einzelnen Modalitäten, ohne dabei auf komplexe Trainingsmethoden zurückzugreifen. Wir evaluieren unseren Ansatz anhand dreier verschiedener Datensätze: EMOTIC, CAER-S und BoLD, und erreichen dabei den Stand der Technik oder vergleichbare Genauigkeit bei allen Datensätzen und Metriken im Vergleich zu viel komplexeren Ansätzen. Der Code wird öffentlich auf GitHub zur Verfügung gestellt: https://github.com/NickyFot/EmoCommonSense.git