Un Cadre de Régression Hiérarchique en Chaîne pour la Reconnaissance des Éclats Vocaux Affectifs

En tant que moyen courant de signalement émotionnel par le biais de vocalisations non linguistiques, les vocal bursts (VB) jouent un rôle important dans l'interaction sociale quotidienne. La compréhension et la modélisation des vocal bursts humains sont indispensables pour développer une intelligence artificielle robuste et générale. L'exploration des approches computationnelles pour comprendre les vocal bursts attire une attention croissante de la part des chercheurs. Dans ce travail, nous proposons un cadre hiérarchique, basé sur des modèles de régression en chaîne, pour la reconnaissance affective à partir des VBs, qui prend explicitement en compte plusieurs relations : (i) entre les états émotionnels et les différentes cultures ; (ii) entre les espaces émotionnels de faible dimension (excitation et valence) et ceux de haute dimension (10 classes d'émotions) ; et (iii) entre les différentes classes d'émotions au sein de l'espace de haute dimension. Pour relever le défi de la rareté des données, nous utilisons également des représentations d'apprentissage auto-supervisé (SSL) avec des modules d'agrégation temporelle et couche par couche. Les systèmes proposés ont participé au Défi ACII Affective Vocal Burst (A-VB) 2022 et se sont classés premiers dans les tâches « TWO » et « CULTURE ». Les résultats expérimentaux basés sur le jeu de données du Défi ACII 2022 démontrent la supériorité des performances du système proposé ainsi que l'efficacité de prendre en compte plusieurs relations à l'aide de modèles de régression en chaîne hiérarchiques.