HyperAIHyperAI

Command Palette

Search for a command to run...

HuBERT: التعلم التمثيلي للصوت ذاتي التدريب من خلال التنبؤ بوحدات مخفية مُعَمَّية

Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdelrahman Mohamed

الملخص

تواجه النماذج ذاتية التدريب لتعلم تمثيلات الصوت ثلاث مشكلات فريدة: (1) وجود وحدات صوتية متعددة في كل جملة صوتية مدخلة، (2) عدم وجود قاموس لوحدات الصوت المدخلة أثناء مرحلة التدريب المسبق، و(3) تباين أطوال وحدات الصوت دون وجود تقسيم صريح لها. ولحل هذه المشكلات الثلاث، نقترح نهجًا يُسمى HuBERT (BERT الوحدات المخفية) لتعلم تمثيلات الصوت ذاتية التدريب، والذي يستخدم خطوة تجميع خارجية (offline clustering) لتوفير علامات هدف مُحاذاة لدالة خسارة تنبؤ مشابهة لـ BERT. ويعتبر العنصر الأساسي في نهجنا هو تطبيق دالة الخسارة للتنبؤ فقط على المناطق المُقنّعة (masked regions)، مما يجبر النموذج على تعلُّم نموذج صوتي ولغوي مدمج على المدخلات المستمرة. ويُعتمد نموذج HuBERT بشكل رئيسي على اتساق خطوة التجميع غير المراقب، وليس على الجودة المتأصلة في العلامات المُخصصة للوحدات المُجمعة. وباستخدام معلم بسيط من نوع k-means يتكون من 100 وحدة، مع تنفيذ عمليتي تجميع، يُظهر نموذج HuBERT أداءً يعادل أو يتفوق على أحدث النماذج (مثل wav2vec 2.0) على معايير Librispeech (960 ساعة) وLibri-light (60,000 ساعة)، باستخدام مجموعات تدريب دقيقة (fine-tuning) بحجم 10 دقائق، 1 ساعة، 10 ساعات، 100 ساعة، و960 ساعة. وبالاستعانة بنموذج بحجم 1 مليار معلمة، يُظهر HuBERT خفضًا نسبيًا يصل إلى 19% و13% في معدل الخطأ الصوتي (WER) على مجموعتي التقييم الأصعب: dev-other وtest-other.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp