VietMed: مجموعة بيانات ومعيار مرجعي لفهم الكلام التلقائي للغة الفيتنامية في المجال الطبي

بسبب القيود المتعلقة بالخصوصية، هناك نقص في المجموعات العامة المتاحة لبيانات التعرف على الكلام في المجال الطبي. في هذا العمل، نقدم مجموعة بيانات التعرف على الكلام الفيتنامي في المجال الطبي "VietMed" التي تتكون من 16 ساعة من الكلام الطبي المصنف، و1000 ساعة من الكلام الطبي غير المصنف، و1200 ساعة من الكلام العام غير المصنف. حسب أفضل علم لنا، تعد "VietMed" أكبر مجموعة بيانات عامة للتعرف على الكلام الطبي في العالم من سبع جوانب: الإجمالي للمدة الزمنية، عدد المتحدثين، الأمراض، ظروف التسجيل، أدوار المتحدثين، المصطلحات الطبية الفريدة واللكنات. كما أن "VietMed" هي أيضًا أكبر مجموعة بيانات عامة للكلام الفيتنامي من حيث الإجمالي للمدة الزمنية. بالإضافة إلى ذلك، نحن أول من يقدم مجموعة بيانات طبية للتعرف على الكلام تغطي جميع مجموعات الأمراض حسب تصنيف ICD-10 وكل اللهجات داخل دولة واحدة. علاوة على ذلك، نقوم بإصدار أول نماذج مُدربة بشكل كبير ومتوفرة للعامة للتعرف على الكلام الفيتنامي وهي w2v2-Viet وXLSR-53-Viet، مع أول نماذج تم ضبطها بدقة كبيرة ومتوفرة للعامة للتعرف على الكلام الطبي. وحتى بدون أي بيانات طبية في التدريب غير المنظور، فإن أفضل نموذج مدرب لدينا XLSR-53-Viet يعمم بشكل جيد للغاية إلى المجال الطبي بتجاوزه لأحدث النماذج XLSR-53 من حيث نسبة الأخطاء الكلامية (WER) بنسبة تقلص نسبتها أكثر من 40% (من 51.8% إلى 29.6% على مجموعة الاختبار). يتم توفير جميع الكود والبيانات والنماذج بشكل عام: https://github.com/leduckhai/MultiMed/tree/master/VietMed.