HyperAIHyperAI

Command Palette

Search for a command to run...

高精度医療音声認識における合成データと意味補正の活用:UNITED-MEDASR

Sourav Banerjee Ayushi Agarwal Promila Ghosh

概要

臨床分野における自動音声認識(ASR)システムは、専門的な医療用語の正確な認識および極めて高い精度要件の達成という大きな課題に直面している。本研究では、合成データ生成、高精度なASRファインチューニング、および高度な意味情報強化技術を統合する新しいアーキテクチャ「United-MedASR」を提案する。United-MedASRは、ICD-10(国際疾病分類第10版)、MIMS(Monthly Index of Medical Specialties)、FDAデータベースなどの信頼性の高い情報源からデータを合成し、専門的な医療用語の語彙を構築する。この拡張された語彙を用いて、Whisper ASRモデルを臨床現場のニーズに適応させるファインチューニングを実施する。処理速度の向上を図るため、Faster Whisperを導入することで、高速かつスムーズなASR性能を実現している。さらに、カスタム化されたBARTベースの意味情報強化モジュールを用いることで、複雑な医療用語の処理を効率的かつ高精度に実現している。本研究の段階的なアプローチにより、ASR性能の新基準が確立され、LibriSpeech test-cleanではワード誤り率(WER)0.985%、Europarl-ASR EN Guest-testでは0.26%、Tedliumでは0.29%、FLEURSでは0.336%という優れた性能を達成した。また、本アーキテクチャは異なる分野へも容易に再利用可能であり、ドメイン特化型ASRシステムにおける汎用性の高いソリューションとしての可能性を示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています