HyperAIHyperAI
il y a 17 jours

Reconnaissance vocale semi-supervisée par correspondance de prior local

Wei-Ning Hsu, Ann Lee, Gabriel Synnaeve, Awni Hannun
Reconnaissance vocale semi-supervisée par correspondance de prior local
Résumé

Pour les tâches de transformation de séquences telles que la reconnaissance vocale, un modèle a priori structuré puissant encode des informations riches sur l'espace cible, excluant implicitement les séquences invalides en leur attribuant une faible probabilité. Dans ce travail, nous proposons une méthode appelée correspondance locale a priori (LPM), une objectif semi-supervisé qui extrait des connaissances d’un modèle a priori fort (par exemple, un modèle de langage) afin de fournir un signal d’apprentissage à un modèle discriminatif entraîné sur des données vocales non étiquetées. Nous démontrons que LPM est théoriquement bien fondée, facile à mettre en œuvre, et supérieure aux techniques existantes de distillation de connaissances dans des conditions comparables. À partir d’un modèle de base entraîné sur 100 heures de données étiquetées, en ajoutant 360 heures de données non étiquetées, LPM permet de réduire de 54 % et 73 %, respectivement, le taux d’erreur mot sur des jeux de test propres et bruités, par rapport à un modèle entièrement supervisé entraîné sur les mêmes données.

Reconnaissance vocale semi-supervisée par correspondance de prior local | Articles de recherche récents | HyperAI