HyperAIHyperAI
منذ 17 أيام

RemixIT: التدريب المستمر للنماذج المُحسِّنة للصوت من خلال إعادة توليف مُستندة إلى التحفيز الذاتي

Efthymios Tzinis, Yossi Adi, Vamsi Krishna Ithapu, Buye Xu, Paris Smaragdis, Anurag Kumar
RemixIT: التدريب المستمر للنماذج المُحسِّنة للصوت من خلال إعادة توليف مُستندة إلى التحفيز الذاتي
الملخص

نقدم نموذج RemixIT، وهو طريقة ذاتية التدريب بسيطة ولكن فعالة لتدريب تحسين الصوت دون الحاجة إلى أي صوت نقي مُحدد ضمن المجال (in-domain) أو موجة ضوضاء منفصلة. تعتمد طريقةنا على التغلب على القيود التي كانت تُعاني منها الطرق السابقة، التي تعتمد بشكل مباشر على إشارات هدف نقيّة ضمن المجال، مما يجعلها حساسة جدًا لأي اختلاف في المجال بين العينات المستخدمة في التدريب والاختبار. يتميز RemixIT بخطة تدريب ذاتي مستمرّة، حيث يقوم نموذج "المُعلّم" المُدرّب مسبقًا على بيانات خارج المجال (out-of-domain) بتقدير إشارات وهمية (Pseudo-targets) لخلطات صوتية ضمن المجال. ثم، من خلال تبديل ترتيب الإشارات النظيفة والضوضاء المُقدّرة وإعادة خلطها معًا، نُنشئ مجموعة جديدة من الخلطات المُعزّزة (bootstrapped mixtures) مع الإشارات الوهمية المرتبطة بها، والتي تُستخدم لتدريب الشبكة "الطالب". وفي المقابل، يُحدّث نموذج المُعلّم دوريًا تقديراته باستخدام المعاملات المُحدّثة للنموذج الأخير للطالب. أظهرت النتائج التجريبية على عدة مجموعات بيانات لتحسين الصوت ومهمات مختلفة تفوق طريقة RemixIT على الطرق السابقة، كما أظهرت قدرة النموذج على التكامل مع أي نموذج فصل صوتي، بالإضافة إلى إمكانية تطبيقه على أي مهمة تكييف مجال نصف مُراقبة أو غير مُراقبة. تُقدّم التحليلات التي نقدمها، مدعومة بالدليل التجريبي، رؤى داخلية حول كيفية عمل خطة التدريب الذاتي، حيث يواصل النموذج الطالب تحسين أدائه رغم مراقبته لـ"إشارات وهمية" مُتدهورة بشدة.

RemixIT: التدريب المستمر للنماذج المُحسِّنة للصوت من خلال إعادة توليف مُستندة إلى التحفيز الذاتي | أحدث الأوراق البحثية | HyperAI