Hohe Präzision bei der medizinischen Spracherkennung durch synthetische Daten und semantische Korrektur: UNITED-MEDASR

Automatische Spracherkennungssysteme (ASR) im klinischen Bereich stehen vor erheblichen Herausforderungen, insbesondere der präzisen Erkennung spezialisierter medizinischer Fachbegriffe und der Erfüllung strenger Genauigkeitsanforderungen. Wir stellen United-MedASR vor, eine neuartige Architektur, die diese Herausforderungen durch die Integration von synthetischer Datengenerierung, präziser ASR-Feinabstimmung und fortschrittlichen Techniken zur semantischen Verbesserung adressiert. United-MedASR erstellt eine spezialisierte medizinische Vokabular durch die Synthese von Daten aus autoritativen Quellen wie ICD-10 (Internationale Klassifikation der Krankheiten, 10. Revision), MIMS (Monthly Index of Medical Specialties) und FDA-Datenbanken. Dieses erweiterte Vokabular ermöglicht eine gezielte Feinabstimmung des Whisper-ASR-Modells, um besser den Anforderungen klinischer Anwendungen gerecht zu werden. Zur Verbesserung der Verarbeitungsgeschwindigkeit integrieren wir Faster Whisper, um eine effiziente und hochgeschwindige ASR-Leistung zu gewährleisten. Zudem setzen wir einen anpassungsfähigen, auf BART basierenden semantischen Enhancer ein, um komplexe medizinische Terminologie effizient zu verarbeiten und die Genauigkeit zu steigern. Unser mehrschichtiger Ansatz setzt neue Maßstäbe in der ASR-Leistung und erreicht einen Wortfehlerquotienten (WER) von 0,985 % auf LibriSpeech test-clean, 0,26 % auf Europarl-ASR EN Guest-test sowie eine robuste Leistung auf Tedlium (0,29 % WER) und FLEURS (0,336 % WER). Darüber hinaus präsentieren wir eine anpassbare Architektur, die sich für verschiedene Domänen replizieren lässt und somit eine vielseitige Lösung für domain-spezifische ASR-Systeme darstellt.