HyperAIHyperAI

Command Palette

Search for a command to run...

MT4SSL: تعزيز تعلم التمثيل الصوتي ذاتي التدريب من خلال دمج أهداف متعددة

Ziyang Ma Zhisheng Zheng Changli Tang Yujin Wang Xie Chen

الملخص

في هذه الورقة، نقدّم منظورًا جديدًا لنموذج التعلم التلقائي للصوت من خلال كيفية الحصول على أهداف التدريب. نعمّم مُستخرج الأهداف إلى ما يُعرف بـ "مُستخرج الأهداف غير المباشرة" (Off-TE) و"مُستخرج الأهداف المباشرة" (On-TE). استنادًا إلى هذا التعميم، نقترح إطارًا جديدًا للتعلم متعدد المهام في التعلم التلقائي، يُسمى MT4SSL، والذي يُشير إلى تعزيز تعلم تمثيلات الصوت التلقائي من خلال دمج أهداف متعددة. يستخدم MT4SSL خوارزمية K-means كمُستخرج أهداف غير مباشر (Off-TE)، وشبكة مُعلّم بدون تدرجات كمُستخرج أهداف مباشر (On-TE). وقد أظهر نموذجنا تفوقًا ملحوظًا على الطرق السابقة في معيار LibriSpeech، كما يُقاس بجودة مماثلة أو حتى أفضل من النماذج الأفضل أداءً باستخدام كميات أقل من البيانات. علاوةً على ذلك، لاحظنا أن استخدام كلا النوعين من المستخرجين (Off-TE وOn-TE) يؤدي إلى تقارب أفضل خلال مرحلة التدريب المسبق. وبما أن النموذج يتميز بالفعالية والكفاءة معًا، نرى أن التعلم متعدد المهام على نماذج التعلم التلقائي للصوت من منظورنا يُعدّ اتجاهًا واعدًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp