
개인 정보 보호 제한으로 인해 의료 분야에서 공개적으로 사용 가능한 음성 인식 데이터셋이 부족합니다. 본 연구에서는 베트남어 의료 분야의 음성 인식 데이터셋인 VietMed를 소개합니다. VietMed는 16시간의 라벨링된 의료 음성, 1000시간의 라벨링되지 않은 의료 음성 및 1200시간의 라벨링되지 않은 일반 분야 음성을 포함하고 있습니다. 최선의 지식을 바탕으로, VietMed는 총 시간, 화자 수, 질병 종류, 녹음 조건, 화자 역할, 고유한 의학 용어 및 억양 등 7가지 측면에서 세계에서 가장 큰 공개 의료 음성 인식 데이터셋입니다. 또한 VietMed는 총 시간 면에서 가장 큰 공개 베트남어 음성 데이터셋이기도 합니다. 우리는 모든 ICD-10 질병 그룹과 한 국가 내 모든 억양을 포괄하는 첫 번째 의료 ASR(자동 음성 인식) 데이터셋을 제공하였습니다. 더불어, 베트남어 ASR에 대한 첫 번째 대규모 사전 학습 모델인 w2v2-Viet와 XLSR-53-Viet를 공개하였으며, 이들 모델은 의료 ASR에 대한 첫 번째 대규모 미세 조정(fine-tuned) 모델도 함께 제공됩니다. 비지도 사전 학습 과정에서 어떠한 의료 데이터도 사용하지 않았음에도 불구하고, 우리의 최고 사전 학습 모델인 XLSR-53-Viet는 기존 최신 XLSR-53보다 테스트 세트에서 WER(단어 오류율)이 51.8%에서 29.6%로 크게 개선되었습니다(상대적 감소율이 40% 이상입니다). 모든 코드, 데이터 및 모델은 다음과 같이 공개되어 있습니다: https://github.com/leduckhai/MultiMed/tree/master/VietMed.