HyperAIHyperAI
منذ 17 أيام

تحسين النماذج الصوتية للغة النادرة غير المراقبة باستخدام إعادة التمثيل الفئوي

Benjamin Milde, Chris Biemann
تحسين النماذج الصوتية للغة النادرة غير المراقبة باستخدام إعادة التمثيل الفئوي
الملخص

نموذج Sparsespeech هو نموذج صوتي غير مراقب يمكنه إنشاء علامات اصطناعية منفصلة للصوت غير المترجم. ونقوم بتوسيع نموذج Sparsespeech لتمكينه من أخذ عينات من متغير منفصل عشوائي، مما يؤدي إلى الحصول على ما يُعرف بـ "مخططات الاحتمال الظاهري" (pseudo-posteriorgrams). ويمكن التحكم تمامًا في درجة التفرّق (sparsity) في هذا المخطط الظاهري بعد انتهاء تدريب النموذج. نستخدم تقنية Gumbel-Softmax لتقريب عملية أخذ العينات من توزيع منفصل داخل الشبكة العصبية، مما يسمح لنا بتدريب الشبكة بكفاءة عالية باستخدام التغذية العكسية القياسية (backpropagation). وقد تم تدريب النموذج الجديد والمحسّن واختباره على مجموعة بيانات Libri-Light، وهي مجموعة معيارية لتقييم نماذج التعرف على الكلام (ASR) في ظل مراقبة محدودة أو غير موجودة. تم تدريب النموذج على 600 ساعة و6000 ساعة من الكلام المُلقَّن باللغة الإنجليزية. وتم تقييم النموذج المحسّن باستخدام مقياس خطأ ABX، وفي بيئة نصف مراقبة باستخدام 10 ساعات من الكلام المترجم. ولاحظنا تحسنًا نسبيًا يصل إلى 31.4% في معدلات خطأ ABX عبر المتكلمين في مجموعة الاختبار، باستخدام النموذج المحسّن مع 600 ساعة من البيانات الصوتية، مع تحسينات إضافية عند توسيع النموذج إلى 6000 ساعة.

تحسين النماذج الصوتية للغة النادرة غير المراقبة باستخدام إعادة التمثيل الفئوي | أحدث الأوراق البحثية | HyperAI