17일 전

고정밀도 의료 음성 인식을 위한 합성 데이터 및 의미 보정 기법: UNITED-MEDASR

Sourav Banerjee, Ayushi Agarwal, Promila Ghosh
고정밀도 의료 음성 인식을 위한 합성 데이터 및 의미 보정 기법: UNITED-MEDASR
초록

임상 분야의 자동 음성 인식(ASR) 시스템은 전문적인 의료 용어를 정확히 인식해야 하며, 엄격한 정밀도 기준을 충족해야 하는 등 큰 도전에 직면해 있다. 본 연구에서는 합성 데이터 생성, 정밀한 ASR 미세조정, 그리고 고도화된 의미 강화 기법을 통합함으로써 이러한 문제를 해결하는 새로운 아키텍처인 United-MedASR를 제안한다. United-MedASR는 ICD-10(국제질병분류 10판), MIMS(Monthly Index of Medical Specialties), FDA 데이터베이스와 같은 권위 있는 출처로부터 데이터를 합성하여 전문적인 의료 용어 집합을 구축한다. 이 확장된 용어집은 Whisper ASR 모델의 미세조정을 통해 임상적 요구에 더욱 적합한 성능을 달성하는 데 기여한다. 처리 속도를 향상시키기 위해 Faster Whisper를 도입하여 효율적이고 고속의 ASR 성능을 보장한다. 또한, 맞춤형 BART 기반 의미 강화 모듈을 활용하여 복잡한 의료 용어를 효과적으로 처리함으로써 정확도를 효율적으로 향상시킨다. 본 연구의 계층적 접근 방식은 ASR 성능의 새로운 기준을 설정하였으며, LibriSpeech test-clean에서 0.985%의 단어 오류율(WER), Europarl-ASR EN Guest-test에서는 0.26%를 기록하였고, Tedlium(0.29% WER) 및 FLEURS(0.336% WER)에서도 뛰어난 성능을 보였다. 더불어, 본 아키텍처는 다양한 분야로 확장 가능하도록 설계되어, 도메인 특화 ASR 시스템에 활용 가능한 유연하고 다목적 해결책을 제공한다.

고정밀도 의료 음성 인식을 위한 합성 데이터 및 의미 보정 기법: UNITED-MEDASR | 최신 연구 논문 | HyperAI초신경