VietMed: Ein Datensatz und Benchmark für die automatische Spracherkennung von Vietnamesisch im medizinischen Bereich

Aufgrund von Datenschutzbeschränkungen gibt es einen Mangel an öffentlich verfügbaren Spracherkennungsdatasets im medizinischen Bereich. In dieser Arbeit stellen wir VietMed vor – ein vietnamesisches Spracherkennungsdataset im medizinischen Bereich, das 16 Stunden etikettierten medizinischen Sprechens, 1000 Stunden unetikettierten medizinischen Sprechens und 1200 Stunden unetikettierten allgemeinen Sprechens umfasst. Nach bestem Wissen ist VietMed in sieben Aspekten das größte öffentlich verfügbare medizinische Spracherkennungsdataset weltweit: Gesamtdauer, Anzahl der Sprecher, Krankheiten, Aufnahmbedingungen, Sprecherrollen, einzigartige medizinische Begriffe und Akzente. VietMed ist auch das größte öffentlich verfügbare vietnamesische Spracherkennungsdataset hinsichtlich der Gesamtdauer. Darüber hinaus sind wir die Ersten, die ein medizinisches ASR-Dataset präsentieren, das alle ICD-10-Krankheitsgruppen und alle Akzente innerhalb eines Landes abdeckt. Zudem veröffentlichen wir die ersten öffentlichen großskaligen vortrainierten Modelle für vietnamesische ASR, w2v2-Viet und XLSR-53-Viet, zusammen mit den ersten öffentlichen großskaligen feintune-Modellen für medizinische ASR. Selbst ohne irgendeine medizinische Daten im unsupervisierten Vortraining generalisiert unser bestes vortrainiertes Modell XLSR-53-Viet sehr gut auf den medizinischen Bereich, indem es den aktuellen Stand der Technik XLSR-53 übertrifft und den Word Error Rate (WER) von 51,8 % auf 29,6 % reduziert (eine relative Reduktion von mehr als 40 %). Der gesamte Code, die Daten und die Modelle sind öffentlich zugänglich: https://github.com/leduckhai/MultiMed/tree/master/VietMed.