HyperAIHyperAI
منذ 17 أيام

FunASR: أداة تعرف صوتيّة متكاملة أساسية

Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Zhangyu Xiao, Shiliang Zhang
FunASR: أداة تعرف صوتيّة متكاملة أساسية
الملخص

يقدّم هذا البحث أداة التعرف على الكلام FunASR، وهي أداة مفتوحة المصدر مصممة لسد الفجوة بين الأبحاث الأكاديمية والتطبيقات الصناعية. توفر FunASR نماذج تم تدريبها على مجموعات بيانات صوتية صناعية ضخمة، بالإضافة إلى إمكانية نشرها في تطبيقات عملية. يُعدّ النموذج الرئيسي في الأداة، Paraformer، نموذجًا متكاملًا غير تكراري للتعرف على الكلام، وقد تم تدريبه على مجموعة بيانات صوتية من الصينية المعيارية تم تسميتها يدويًا وتشمل 60,000 ساعة من السمع. ولتحسين أداء Paraformer، أضفنا إلى الهيكل الأساسي للنموذج قدرات جديدة تشمل توقع التوقيت الزمني (timestamp prediction) ودعم تخصيص الكلمات المفتاحية (hotword customization). علاوة على ذلك، لتسهيل نشر النماذج، أُطلقت مفتوحة المصدر نموذجان: الأول هو نموذج كشف النشاط الصوتي (Voice Activity Detection) المستند إلى الشبكة التسلسلية ذات الذاكرة المُغذاة أمامًا (FSMN-VAD)، والثاني هو نموذج ما بعد معالجة النص لوضع علامات الترقيم المستند إلى نموذج المُحول ذي التأخير القابل للتحكم (CT-Transformer)، وقد تم تدريب كلا النموذجين على مجموعات بيانات صناعية. توفر هذه الوحدات الوظيفية أساسًا قويًا لبناء خدمات للتعرف على الكلام في الملفات الصوتية الطويلة ذات الدقة العالية. ومقارنةً بالنماذج الأخرى المدربة على مجموعات بيانات مفتوحة، تُظهر Paraformer أداءً متفوقًا.

FunASR: أداة تعرف صوتيّة متكاملة أساسية | أحدث الأوراق البحثية | HyperAI