التعرف على الكلام الطبي عالي الدقة من خلال البيانات الاصطناعية والتصحيح الدلالي: UNITED-MEDASR

تواجه أنظمة التعرف التلقائي على الكلام (ASR) في المجال الطبي تحديات كبيرة، لا سيما الحاجة إلى التعرف بدقة على المفردات الطبية المتخصصة وتحقيق متطلبات صارمة من الدقة. نقدّم "United-MedASR"، وهي بنية مبتكرة تُعالج هذه التحديات من خلال دمج توليد بيانات مُصَنَّعة، وتحسين دقيق لأنظمة التعرف على الكلام، بالإضافة إلى تقنيات متقدمة لتعزيز المعنى. تقوم "United-MedASR" ببناء قاموس طبي متخصص من خلال توليد بيانات مُصَنَّعة من مصادر موثوقة مثل تصنيف الأمراض الدولي ICD-10 (الطبعة العاشرة)، وقاعدة MIMS (الفهرس الشهري للتخصصات الطبية)، وقواعد بيانات FDA. يُسهم هذا القاموس المُثرَّى في تحسين نموذج Whisper لتقديم أداءً أفضل يتناسب مع الاحتياجات السريرية. ولتعزيز سرعة المعالجة، ندمج تقنية Faster Whisper، مما يضمن أداءً سريعًا وسلسًا لأنظمة التعرف على الكلام. علاوةً على ذلك، نستخدم معززًا معنويًا مخصصًا مبنيًا على نموذج BART لمعالجة المصطلحات الطبية المعقدة، مما يُحسّن الدقة بشكل فعّال. يُعد نهجنا الطبقي معيارًا جديدًا في أداء أنظمة التعرف على الكلام، حيث حقق معدل خطأ كلمة (WER) قدره 0.985% على مجموعة بيانات LibriSpeech test-clean، و0.26% على مجموعة Europarl-ASR EN Guest-test، مع أداء قوي على مجموعتي Tedlium (0.29% WER) وFLEURS (0.336% WER). علاوةً على ذلك، نقدّم بنية قابلة للتكيف يمكن تكرارها في مجالات مختلفة، مما يجعلها حلًا مرنًا ومناسبًا لأنظمة التعرف على الكلام المخصصة لكل مجال.