6ヶ月前

概要

臨床分野における自動音声認識（ASR）システムは、専門的な医療用語の正確な認識および極めて高い精度要件の達成という大きな課題に直面している。本研究では、合成データ生成、高精度なASRファインチューニング、および高度な意味情報強化技術を統合する新しいアーキテクチャ「United-MedASR」を提案する。United-MedASRは、ICD-10（国際疾病分類第10版）、MIMS（Monthly Index of Medical Specialties）、FDAデータベースなどの信頼性の高い情報源からデータを合成し、専門的な医療用語の語彙を構築する。この拡張された語彙を用いて、Whisper ASRモデルを臨床現場のニーズに適応させるファインチューニングを実施する。処理速度の向上を図るため、Faster Whisperを導入することで、高速かつスムーズなASR性能を実現している。さらに、カスタム化されたBARTベースの意味情報強化モジュールを用いることで、複雑な医療用語の処理を効率的かつ高精度に実現している。本研究の段階的なアプローチにより、ASR性能の新基準が確立され、LibriSpeech test-cleanではワード誤り率（WER）0.985%、Europarl-ASR EN Guest-testでは0.26%、Tedliumでは0.29%、FLEURSでは0.336%という優れた性能を達成した。また、本アーキテクチャは異なる分野へも容易に再利用可能であり、ドメイン特化型ASRシステムにおける汎用性の高いソリューションとしての可能性を示している。

ソースPDF