HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب الذاتي والتدريب المسبق متكاملان في التعرف على الصوت

Qiantong Xu Alexei Baevski Tatiana Likhomanenko Paden Tomasello Alexis Conneau Ronan Collobert Gabriel Synnaeve Michael Auli

الملخص

أصبح التدريب الذاتي والتدريب المسبق غير المراقب طريقتين فعالتين لتحسين أنظمة التعرف على الصوت باستخدام بيانات غير مُدرَّسة. ومع ذلك، لا يزال غير واضح ما إذا كانت هذه الأساليب تتعلم أنماطًا متشابهة، أو ما إذا كان بالإمكان دمجهما بشكل فعّال. في هذه الورقة، نُظهر أن تسمية الكيانات الوهمية (pseudo-labeling) والتدريب المسبق باستخدام wav2vec 2.0 مكملان في مجموعة متنوعة من بيئات البيانات المُدرَّسة. باستخدام فقط 10 دقائق من البيانات المُدرَّسة من Libri-light، بالإضافة إلى 53 ألف ساعة من البيانات غير المُدرَّسة من LibriVox، تم تحقيق معدلات خطأ الكلام (WER) البالغة 3.0٪/5.2٪ على مجموعتي الاختبار النظيفتين والآخريين من Librispeech – وهي نتائج تُنافس أفضل الأنظمة المنشورة التي تم تدريبها سابقًا على 960 ساعة فقط من البيانات المُدرَّسة. أما عند التدريب على جميع البيانات المُدرَّسة من Librispeech، فقد تم تحقيق معدلات خطأ بلغت 1.5٪/3.1٪.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp