HyperAIHyperAI
il y a 2 mois

Wav2Small : Distillation de Wav2Vec2 à 72K paramètres pour la reconnaissance émotionnelle de la parole en ressources limitées

Dionyssos Kounadis-Bastian; Oliver Schrüfer; Anna Derington; Hagen Wierstorf; Florian Eyben; Felix Burkhardt; Björn Schuller
Wav2Small : Distillation de Wav2Vec2 à 72K paramètres pour la reconnaissance émotionnelle de la parole en ressources limitées
Résumé

La Reconnaissance Émotionnelle de la Parole (SER) nécessite des ressources informatiques importantes pour surmonter le défi du désaccord substantiel entre les annotateurs. Aujourd'hui, la SER évolue vers des annotations dimensionnelles de l'excitation, de la dominance et de la valence (A/D/V). Les métriques universelles telles que la distance L2 se révèlent inadaptées pour évaluer la précision A/D/V en raison du manque de consensus dans les opinions des annotateurs. Cependant, le Coefficient de Corrélation de Concordance (CCC) est apparu comme une métrique alternative pour A/D/V, où la sortie d'un modèle est évaluée en fonction du CCC de l'ensemble du jeu de données plutôt que des distances L2 des audios individuels. Des études récentes ont montré que les architectures wav2vec2 / wavLM produisant une valeur flottante pour chaque dimension A/D/V atteignent aujourd'hui le niveau d'état de l'art (Sota) en termes de CCC sur A/D/V. La famille Wav2Vec2.0 / WavLM a un impact informatique important, mais l'entraînement de modèles plus petits à l'aide d'annotations humaines n'a pas été couronné de succès. Dans cet article, nous utilisons un grand modèle Transformer Sota A/D/V comme Enseignant/Annotateur pour entraîner 5 modèles étudiants : 4 MobileNets et notre proposition Wav2Small, en utilisant uniquement les sorties A/D/V du modèle Enseignant au lieu des annotations humaines. Le modèle Enseignant que nous proposons établit également un nouveau Sota sur le jeu de données MSP Podcast avec un CCC de valence = 0,676. Nous choisissons MobileNetV4 / MobileNet-V3 comme modèles étudiants car MobileNet a été conçu pour des temps d'exécution rapides. Nous proposons également Wav2Small, une architecture conçue pour minimiser le nombre de paramètres et la consommation de RAM. Avec un fichier .onnx (quantifié) ne pesant que 120 Ko, Wav2Small est une solution potentielle pour A/D/V sur des matériels à faibles ressources, possédant seulement 72 K paramètres contre 3,12 M paramètres pour MobileNet-V4-Small.

Wav2Small : Distillation de Wav2Vec2 à 72K paramètres pour la reconnaissance émotionnelle de la parole en ressources limitées | Articles de recherche récents | HyperAI