HyperAIHyperAI

Command Palette

Search for a command to run...

wav2vec 2.0: إطار لتعلم تمثيلات الصوت بأسلوب تلقائي التدريب

Alexei Baevski Henry Zhou Abdelrahman Mohamed Michael Auli

الملخص

نُظهر لأول مرة أن تعلُّم تمثيلات قوية من الصوت الصوتي وحده، تليها عملية تحسين دقيق (fine-tuning) باستخدام بيانات صوتية مكتوبة، يمكن أن تتفوّق على أفضل الطرق شبه المُراقبة، مع بساطة مفاهيمية أكبر. يُغطّي نموذج wav2vec 2.0 إدخال الصوت في الفضاء الخفي، ويحلّ مسألة تقابلية (contrastive task) مُعرّفة على كمّية مُكوّنة من التمثيلات الخفية التي تُدرَّس بشكل مشترك. أظهرت التجارب التي استخدمت جميع البيانات المُصنّفة من مجموعة Librispeech تحقيق معدل خطأ كلمات (WER) قدره 1.8/3.3 على مجموعتي الاختبار النظيف/الآخريات. وعند تقليل كمية البيانات المُصنّفة إلى ساعة واحدة، تفوق wav2vec 2.0 على أفضل النتائج السابقة على مجموعة بيانات 100 ساعة، مع استخدام كمية بيانات مُصنّفة تقل عن 100 مرة. وحتى باستخدام عشر دقائق فقط من البيانات المُصنّفة، مع التدريب المسبق على 53 ألف ساعة من البيانات غير المُصنّفة، تم تحقيق معدلات خطأ كلمات قدرها 4.8/8.2. مما يُظهر إمكانية تحقيق التعرف على الكلام باستخدام كميات محدودة جدًا من البيانات المُصنّفة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp