HyperAIHyperAI
منذ 17 أيام

MT4SSL: تعزيز تعلم التمثيل الصوتي ذاتي التدريب من خلال دمج أهداف متعددة

Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen
MT4SSL: تعزيز تعلم التمثيل الصوتي ذاتي التدريب من خلال دمج أهداف متعددة
الملخص

في هذه الورقة، نقدّم منظورًا جديدًا لنموذج التعلم التلقائي للصوت من خلال كيفية الحصول على أهداف التدريب. نعمّم مُستخرج الأهداف إلى ما يُعرف بـ "مُستخرج الأهداف غير المباشرة" (Off-TE) و"مُستخرج الأهداف المباشرة" (On-TE). استنادًا إلى هذا التعميم، نقترح إطارًا جديدًا للتعلم متعدد المهام في التعلم التلقائي، يُسمى MT4SSL، والذي يُشير إلى تعزيز تعلم تمثيلات الصوت التلقائي من خلال دمج أهداف متعددة. يستخدم MT4SSL خوارزمية K-means كمُستخرج أهداف غير مباشر (Off-TE)، وشبكة مُعلّم بدون تدرجات كمُستخرج أهداف مباشر (On-TE). وقد أظهر نموذجنا تفوقًا ملحوظًا على الطرق السابقة في معيار LibriSpeech، كما يُقاس بجودة مماثلة أو حتى أفضل من النماذج الأفضل أداءً باستخدام كميات أقل من البيانات. علاوةً على ذلك، لاحظنا أن استخدام كلا النوعين من المستخرجين (Off-TE وOn-TE) يؤدي إلى تقارب أفضل خلال مرحلة التدريب المسبق. وبما أن النموذج يتميز بالفعالية والكفاءة معًا، نرى أن التعلم متعدد المهام على نماذج التعلم التلقائي للصوت من منظورنا يُعدّ اتجاهًا واعدًا.