
要約
プライバシー制限のため、医療分野における公開された音声認識データセットが不足しています。本研究では、16時間のラベル付き医療音声、1000時間のラベルなし医療音声、および1200時間のラベルなし一般分野音声から構成されるベトナム語の医療音声認識データセット「VietMed」を紹介します。当方の知る限り、VietMedは以下の7つの側面で世界最大の公開医療音声認識データセットとなっています:総時間数、話者数、疾患種類、録音条件、話者の役割、独自の医療用語、アクセント。また、VietMedは総時間数においても現在までに公開された最大規模のベトナム語音声データセットです。さらに、当研究では初めてICD-10疾患群と国内全てのアクセントをカバーする医療ASR(自動音声認識)データセットを提供しています。また、ベトナム語ASR用の大規模な最初の公開事前学習モデルであるw2v2-VietとXLSR-53-Vietをリリースし、これらに加えて医療ASR用の大規模な最初の公開微調整モデルも提供しています。無教師事前学習段階で一切の医療データを使用せずに開発した最良的事前学習モデルXLSR-53-Vietは、テストセットでのWER(単語誤り率)が51.8%から29.6%へと改善し(相対的な削減率が40%以上)、最先端のXLSR-53を上回る性能を示しました。すべてのコード、データ、モデルは公開されています:https://github.com/leduckhai/MultiMed/tree/master/VietMed