Scribosermo : Modèles rapides de reconnaissance vocale en texte pour l'allemand et d'autres langues

Les modèles récents de reconnaissance vocale (speech-to-text) nécessitent généralement de grandes ressources matérielles et sont principalement entraînés en anglais. Ce papier présente des modèles de reconnaissance vocale pour l’allemand, ainsi que pour l’espagnol et le français, dotés de caractéristiques spécifiques : (a) Ils sont de petite taille et fonctionnent en temps réel sur des microcontrôleurs tels qu’un Raspberry Pi. (b) En s’appuyant sur un modèle pré-entraîné en anglais, ils peuvent être entraînés sur du matériel grand public avec un jeu de données relativement réduit. (c) Ces modèles sont compétitifs par rapport à d’autres solutions et surpassent ces dernières en allemand. À cet égard, les modèles combinent les avantages d’approches existantes, chacune desquelles ne possède qu’un sous-ensemble des fonctionnalités proposées ici. En outre, le papier introduit une nouvelle bibliothèque pour la gestion des jeux de données, conçue pour une extension facile avec de nouveaux jeux de données, et propose une méthode optimisée pour le transfert d’apprentissage vers de nouvelles langues à l’aide d’un modèle pré-entraîné provenant d’une langue à alphabet similaire.