Les VLLMs offrent un meilleur contexte pour la compréhension des émotions grâce au raisonnement basé sur le sens commun.

La reconnaissance des émotions dans un contexte implique l'identification des émotions apparentes d'un individu en tenant compte des indices contextuels de la scène environnante. Les approches précédentes pour cette tâche ont consisté à concevoir des architectures de codage de scène explicites ou à intégrer des informations externes liées à la scène, telles que des légendes. Cependant, ces méthodes utilisent souvent des informations contextuelles limitées ou dépendent de pipelines d'entraînement complexes. Dans ce travail, nous exploitons les capacités révolutionnaires des modèles de vision et de langage à grande échelle (VLLMs) pour améliorer la classification des émotions dans un contexte sans ajouter de complexité au processus d'entraînement, en adoptant une approche en deux étapes. Dans la première étape, nous proposons d'utiliser les VLLMs pour générer des descriptions en langage naturel de l'émotion apparente du sujet par rapport au contexte visuel. Dans la deuxième étape, ces descriptions sont utilisées comme information contextuelle et, conjointement avec l'entrée image, servent à entraîner une architecture basée sur un transformateur qui fusionne les caractéristiques textuelles et visuelles avant la tâche finale de classification.Nos résultats expérimentaux montrent que les caractéristiques textuelles et visuelles possèdent des informations complémentaires, et que notre architecture fusionnée surpasse significativement les modalités individuelles sans recourir à des méthodes d'entraînement complexes. Nous évaluons notre approche sur trois jeux de données différents : EMOTIC, CAER-S et BoLD, et obtenons une précision au niveau de l'état de l'art ou comparable à celle des approches beaucoup plus complexes selon tous les jeux de données et métriques.Le code sera rendu publiquement disponible sur GitHub : https://github.com/NickyFot/EmoCommonSense.git