Ère du transformer en reconnaissance émotionnelle vocale : la fermeture de l'écart de valence

Les avancées récentes dans les architectures fondées sur les transformateurs, pré-entraînées de manière auto-supervisée, ont montré un grand potentiel dans de nombreuses tâches d’apprentissage automatique. Dans le domaine audio, de telles architectures ont également été efficacement exploitées pour la reconnaissance émotionnelle en parole (SER). Toutefois, les travaux existants n’ont pas évalué l’impact de la taille du modèle et des données utilisées pour le pré-entraînement sur les performances en tâche fine, et ont accordé une attention limitée à la généralisation, à la robustesse, à l’équité et à l’efficacité. Cette étude présente une analyse approfondie de ces aspects sur plusieurs variantes pré-entraînées de wav2vec 2.0 et HuBERT, que nous avons finement ajustées sur les dimensions d’excitation, de dominance et de valence du corpus MSP-Podcast, tout en utilisant par ailleurs IEMOCAP et MOSI pour évaluer la généralisation entre corpus. À notre connaissance, nous obtenons la meilleure performance pour la prédiction de la valence sans recourir à des informations linguistiques explicites, avec un coefficient de corrélation de concordance (CCC) de 0,638 sur MSP-Podcast. En outre, nos investigations révèlent que les architectures basées sur les transformateurs sont plus robustes aux petites perturbations qu’une base CNN, et équitables vis-à-vis des groupes biologiques selon le sexe, mais pas vis-à-vis des locuteurs individuels. Enfin, nous sommes les premiers à démontrer que leur succès exceptionnel sur la prédiction de la valence repose sur des informations linguistiques implicites apprises lors du finetuning des couches transformateurs, ce qui explique pourquoi leurs performances sont comparables à celles des approches multimodales récentes qui exploitent explicitement les données textuelles. Collectivement, nos résultats décrivent le tableau suivant : les architectures basées sur les transformateurs constituent désormais l’état de l’art en SER, mais des progrès supplémentaires sont nécessaires pour atténuer les problèmes persistants de robustesse et de dépendance aux locuteurs individuels. Afin de garantir la reproductibilité de nos résultats, nous mettons à disposition la meilleure modélisation au sein de la communauté.