HyperAIHyperAI

Command Palette

Search for a command to run...

VLLMs bieten bessere Kontexte für die Emotionsverstehens durch Common-Sense-Reasoning

Alexandros Xenos Niki M. Foteinopoulou Ioanna Ntinou Ioannis Patras Georgios Tzimiropoulos

Zusammenfassung

Die Erkennung von Emotionen im Kontext beinhaltet die Identifizierung der offensichtlichen Emotionen einer Person unter Berücksichtigung kontextueller Hinweise aus der umgebenden Szene. Frühere Ansätze für diese Aufgabe haben explizite Szenencodierungsarchitekturen entwickelt oder externe, szenenbezogene Informationen wie Bildunterschriften integriert. Diese Methoden nutzen jedoch oft begrenzte kontextuelle Informationen oder basieren auf komplizierten Trainingspipelines. In dieser Arbeit nutzen wir die bahnbrechenden Fähigkeiten von Vision-and-Large-Language Modellen (VLLMs), um die Emotionsklassifikation im Kontext zu verbessern, ohne die Komplexität des Trainingsprozesses zu erhöhen, und zwar in einem zweistufigen Ansatz. Im ersten Stadium schlagen wir vor, VLLMs durch Anweisungen dazu zu veranlassen, natürlichsprachliche Beschreibungen der offensichtlichen Emotionen des Subjekts im Verhältnis zum visuellen Kontext zu generieren. Im zweiten Stadium werden diese Beschreibungen als kontextuelle Information verwendet und zusammen mit den Bildinformationen eingesetzt, um eine transformerbasierte Architektur zu trainieren, die textuelle und visuelle Merkmale fusioniert, bevor die endgültige Klassifizierung erfolgt. Unsere experimentellen Ergebnisse zeigen, dass textuelle und visuelle Merkmale ergänzende Informationen liefern und unsere fusionierte Architektur erheblich bessere Leistungen zeigt als die einzelnen Modalitäten, ohne dabei auf komplexe Trainingsmethoden zurückzugreifen. Wir evaluieren unseren Ansatz anhand dreier verschiedener Datensätze: EMOTIC, CAER-S und BoLD, und erreichen dabei den Stand der Technik oder vergleichbare Genauigkeit bei allen Datensätzen und Metriken im Vergleich zu viel komplexeren Ansätzen. Der Code wird öffentlich auf GitHub zur Verfügung gestellt: https://github.com/NickyFot/EmoCommonSense.git


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLLMs bieten bessere Kontexte für die Emotionsverstehens durch Common-Sense-Reasoning | Paper | HyperAI