Reconnaissance vocale médicale à haute précision grâce à des données synthétiques et une correction sémantique : UNITED-MEDASR

Les systèmes de reconnaissance automatique de la parole (ASR) dans le domaine clinique font face à des défis importants, notamment la nécessité de reconnaître avec précision un vocabulaire médical spécialisé et de satisfaire à des exigences strictes en matière de fiabilité. Nous présentons United-MedASR, une nouvelle architecture conçue pour relever ces défis en intégrant la génération de données synthétiques, le finetuning précis de l’ASR et des techniques avancées d’amélioration sémantique. United-MedASR construit un vocabulaire médical spécialisé en synthétisant des données provenant de sources d’autorité telles que la classification internationale des maladies (ICD-10), MIMS (Monthly Index of Medical Specialties) et les bases de données de la FDA. Ce vocabulaire enrichi permet de finetuner le modèle ASR Whisper afin qu’il réponde plus efficacement aux besoins cliniques. Pour améliorer la vitesse de traitement, nous intégrons Faster Whisper, garantissant ainsi des performances ASR rapides et optimisées. En outre, nous utilisons un enrichisseur sémantique personnalisé basé sur BART afin de gérer efficacement des terminologies médicales complexes, ce qui contribue à une amélioration significative de la précision. Notre approche en couches établit de nouveaux jalons en matière de performance ASR, atteignant un taux d’erreur de mot (WER) de 0,985 % sur LibriSpeech test-clean, de 0,26 % sur Europarl-ASR EN Guest-test, ainsi qu’une performance robuste sur Tedlium (0,29 % WER) et FLEURS (0,336 % WER). Enfin, nous proposons une architecture adaptable, pouvant être reproduite dans différents domaines, offrant ainsi une solution polyvalente pour les systèmes ASR spécifiques à un domaine.