HyperAIHyperAI
il y a 12 jours

Évaluation des variantes de wav2vec 2.0 sur les tâches de bursts vocaux affectifs

{Akira Sasou, Bagus Tris Atmaja}
Résumé

La recherche de biomarqueurs émotionnels au sein de la voix humaine constitue un domaine de recherche particulièrement exigeant. Alors que les études antérieures se concentraient sur la prédiction de l’état affectif à partir de la parole, cette recherche explore diverses tâches liées aux éclats vocaux affectifs. Inspirés par le succès de l’apprentissage auto-supervisé dans la reconnaissance automatique de la parole, nous avons extrait des représentations acoustiques (acoustic embeddings) à l’aide de variantes de wav2vec 2.0 pour quatre tâches spécifiques sur les éclats vocaux affectifs : High, Two, Culture et Type. En utilisant une architecture similaire pour toutes les tâches, l’évaluation des embeddings acoustiques révèle un potentiel prometteur des variantes wav2vec 2.0 par rapport aux caractéristiques acoustiques classiques dans les tâches d’analyse des éclats vocaux affectifs. Nous avons évalué à la fois les caractéristiques acoustiques traditionnelles et ces embeddings acoustiques sur un ensemble de vingt graines (seeds), rapportant les scores maximum et moyen ainsi que leurs écarts-types sur l’ensemble de validation. Trois scores élevés obtenus lors de ces validations pour toutes les tâches ont permis de générer les prédictions pour l’ensemble de test. En comparant les performances sur le test avec celles des études antérieures, nous avons observé des améliorations significatives.

Évaluation des variantes de wav2vec 2.0 sur les tâches de bursts vocaux affectifs | Articles de recherche récents | HyperAI