HyperAI
Back to Headlines

LAION et Intel présentent des outils d'IA capables de détecter 40 émotions distinctes avec précision

il y a 4 jours

LAION et Intel viennent de présenter de nouveaux outils permettant aux systèmes d'intelligence artificielle (IA) d'évaluer l'intensité de 40 émotions distinctes. Ce projet open-source, baptisé "Empathic Insight", regroupe plusieurs modèles et jeux de données conçus pour analyser des images faciales ou des fichiers audio, et attribuer une notation à la fois à l'intensité et à la nature des émotions. Pour les images faciales, l'ensemble "Empathic Insight" attribue une note comprises entre 0 et 7 pour chacune des 40 catégories émotionnelles. En revanche, pour les voix, il classe les émotions en trois catégories : absentes, légèrement prononcées ou fortement prononcées. Cette diversité de categorisation vise à fournir une interprétation plus nuancée et détaillée des émotions humaines. Le noyau de ces modèles est EmoNet, qui repose sur une taxonomie de 40 catégories d'émotions élaborées à partir du "Handbook of Emotions", une référence majeure en psychologie. Les chercheurs ont élargi la liste habituelle des émotions de base pour inclure des états cognitifs comme la concentration et la confusion, des états physiques tels que la douleur et la fatigue, et des émotions sociales telles que la honte et la fierté. Ils soulignent que les émotions ne sont pas universellement lisibles, mais plutôt construites par le cerveau à partir de divers signaux. Ainsi, leurs modèles utilisent des estimations de probabilité plutôt que des étiquettes fixes pour interpréter les émotions. La formation des modèles a été réalisée à partir de plus de 203 000 images faciales et 4 692 échantillons vocaux. Ces données proviennent intégralement de sources synthétiques, ce qui permet d'éviter les problèmes de confidentialité et d'améliorer la diversité démographique des ensembles de données. Les images faciales ont été générées à l'aide de modèles text-to-image comme Midjourney et Flux, puis programmées pour varier selon l'âge, le genre et l'ethnicité. Tous les échantillons vocaux ont fait l'objet d'une revue par des experts formés en psychologie, et seules les notations approuvées par trois revueurs indépendants ont été intégrées dans le jeu de données. En termes de performance, les modèles "Empathic Insight" surpassent leurs concurrents sur plusieurs critères. Sur le benchmark EmoNet Face HQ, le modèle facial "Empathic Insight" a montré une corrélation supérieure avec les notations des experts en psychologie comparé à des modèles fermés comme Hume AI ou à d'autres solutions open-source comme Gemini 2.5 Pro. L'alignement des scores d'EmoNet avec ceux des professionnels atteint jusqu'à 40 %, contre 25 à 30 % pour les modèles de vision linguistique (VLM) standards et pratiquement zéro pour les baselines aléatoires. Les chercheurs ont également obtenu d'excellents résultats en reconnaissance émotionnelle vocale. Le modèle "Empathic Insight Voice" a surpassé les modèles existants sur le benchmark EmoNet Voice, en identifiant correctement les 40 catégories d'émotions. Pour optimiser ces performances, l'équipe a testé différentes tailles de modèles et méthodes de traitement audio. Au-delà de la simple reconnaissance des émotions, LAION a développé BUD-E Whisper, une version améliorée du modèle Whisper d'OpenAI. Alors que Whisper se limite à la transcription de la parole en texte, BUD-E Whisper offre des descriptions structurées de la tonalité émotionnelle, détecte des expressions vocales telles que des rires ou des soupirs, et estime les caractéristiques du locuteur, notamment son âge et son genre. Cette capacité d'enrichissement des transcriptions pourrait offrir de nouvelles perspectives pour des applications comme l'analyse de sentiments, l'assistant virtuel personnalisé, et les interfaces homme-machine plus intuitives. Tous les modèles EmoNet sont mis à disposition sous licence Creative Commons pour les modèles et Apache 2.0 pour le code. Les jeux de données et les modèles peuvent être téléchargés depuis la plateforme Hugging Face. Les modèles "Empathic Insight" sont proposés en versions "Small" et "Large", afin de s'adapter à différents cas d'utilisation et configurations matérielles. Ce projet bénéficie du soutien continu d'Intel depuis 2021, dans le cadre de sa stratégie open-source d'IA. L'accent est mis sur l'optimisation des modèles pour le matériel Intel, facilitant ainsi leur utilisation et leur intégration dans des environnements de production variés. La collaboration entre LAION et Intel marque une avancée significative dans le domaine de la compréhension émotionnelle par l'IA, avec des implications potentielles pour de nombreux secteurs, notamment la santé mentale, l'éducation, et la création de contenus multimédias plus empathiques.

Related Links