Cadre à activation vocale multi-tâche utilisant l'apprentissage auto-supervisé

Les méthodes d'apprentissage auto-supervisé telles que wav2vec 2.0 ont démontré des résultats prometteurs dans l'apprentissage de représentations vocales à partir de données vocales non étiquetées et non transcrites, qui s'avèrent utiles pour la reconnaissance vocale. Étant donné que ces représentations sont apprises sans supervision spécifique à une tâche, elles peuvent également être bénéfiques pour d'autres tâches pilotées par la voix, telles que la vérification d'identité vocale, la détection de mots-clés ou la classification d'émotions. Dans notre travail, nous proposons un cadre général destiné à adapter un modèle wav2vec 2.0 pré-entraîné à diverses tâches pilotées par la voix. Nous avons conçu des architectures de réseaux descendantes agissant sur les représentations contextuelles du modèle wav2vec 2.0 afin d’adapter ces représentations à la résolution d’une tâche donnée. Enfin, nous étendons notre cadre à l’apprentissage multi-tâches en optimisant conjointement les paramètres du réseau sur plusieurs tâches pilotées par la voix à l’aide d’un noyau partagé basé sur un transformateur. Les deux cadres, tant uniques que multi-tâches, atteignent des résultats de pointe sur les benchmarks de vérification d'identité vocale et de détection de mots-clés. Nos meilleurs modèles atteignent respectivement un taux d’erreur équivalent (EER) de 1,98 % et 3,15 % sur le jeu de test VoxCeleb1 lorsqu’ils sont entraînés sur VoxCeleb2 et VoxCeleb1, ainsi qu’une précision de 98,23 % sur le jeu de données de détection de mots-clés Google Speech Commands v1.0.