HuBERT: التعلم التمثيلي للصوت ذاتي التدريب من خلال التنبؤ بوحدات مخفية مُعَمَّية

تواجه النماذج ذاتية التدريب لتعلم تمثيلات الصوت ثلاث مشكلات فريدة: (1) وجود وحدات صوتية متعددة في كل جملة صوتية مدخلة، (2) عدم وجود قاموس لوحدات الصوت المدخلة أثناء مرحلة التدريب المسبق، و(3) تباين أطوال وحدات الصوت دون وجود تقسيم صريح لها. ولحل هذه المشكلات الثلاث، نقترح نهجًا يُسمى HuBERT (BERT الوحدات المخفية) لتعلم تمثيلات الصوت ذاتية التدريب، والذي يستخدم خطوة تجميع خارجية (offline clustering) لتوفير علامات هدف مُحاذاة لدالة خسارة تنبؤ مشابهة لـ BERT. ويعتبر العنصر الأساسي في نهجنا هو تطبيق دالة الخسارة للتنبؤ فقط على المناطق المُقنّعة (masked regions)، مما يجبر النموذج على تعلُّم نموذج صوتي ولغوي مدمج على المدخلات المستمرة. ويُعتمد نموذج HuBERT بشكل رئيسي على اتساق خطوة التجميع غير المراقب، وليس على الجودة المتأصلة في العلامات المُخصصة للوحدات المُجمعة. وباستخدام معلم بسيط من نوع k-means يتكون من 100 وحدة، مع تنفيذ عمليتي تجميع، يُظهر نموذج HuBERT أداءً يعادل أو يتفوق على أحدث النماذج (مثل wav2vec 2.0) على معايير Librispeech (960 ساعة) وLibri-light (60,000 ساعة)، باستخدام مجموعات تدريب دقيقة (fine-tuning) بحجم 10 دقائق، 1 ساعة، 10 ساعات، 100 ساعة، و960 ساعة. وبالاستعانة بنموذج بحجم 1 مليار معلمة، يُظهر HuBERT خفضًا نسبيًا يصل إلى 19% و13% في معدل الخطأ الصوتي (WER) على مجموعتي التقييم الأصعب: dev-other وtest-other.