HyperAIHyperAI

Command Palette

Search for a command to run...

Les VLLMs offrent un meilleur contexte pour la compréhension des émotions grâce au raisonnement basé sur le sens commun.

Alexandros Xenos Niki M. Foteinopoulou Ioanna Ntinou Ioannis Patras Georgios Tzimiropoulos

Résumé

La reconnaissance des émotions dans un contexte implique l'identification des émotions apparentes d'un individu en tenant compte des indices contextuels de la scène environnante. Les approches précédentes pour cette tâche ont consisté à concevoir des architectures de codage de scène explicites ou à intégrer des informations externes liées à la scène, telles que des légendes. Cependant, ces méthodes utilisent souvent des informations contextuelles limitées ou dépendent de pipelines d'entraînement complexes. Dans ce travail, nous exploitons les capacités révolutionnaires des modèles de vision et de langage à grande échelle (VLLMs) pour améliorer la classification des émotions dans un contexte sans ajouter de complexité au processus d'entraînement, en adoptant une approche en deux étapes. Dans la première étape, nous proposons d'utiliser les VLLMs pour générer des descriptions en langage naturel de l'émotion apparente du sujet par rapport au contexte visuel. Dans la deuxième étape, ces descriptions sont utilisées comme information contextuelle et, conjointement avec l'entrée image, servent à entraîner une architecture basée sur un transformateur qui fusionne les caractéristiques textuelles et visuelles avant la tâche finale de classification.Nos résultats expérimentaux montrent que les caractéristiques textuelles et visuelles possèdent des informations complémentaires, et que notre architecture fusionnée surpasse significativement les modalités individuelles sans recourir à des méthodes d'entraînement complexes. Nous évaluons notre approche sur trois jeux de données différents : EMOTIC, CAER-S et BoLD, et obtenons une précision au niveau de l'état de l'art ou comparable à celle des approches beaucoup plus complexes selon tous les jeux de données et métriques.Le code sera rendu publiquement disponible sur GitHub : https://github.com/NickyFot/EmoCommonSense.git


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp