HyperAIHyperAI

Command Palette

Search for a command to run...

ثنائي النمذجة المقنع: نحو إطار تدريب مسبق شامل للصوت

Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi, Member, IEEE Noboru Harada, Senior Member, IEEE Kunio Kashino, Senior Member, IEEE

الملخص

التعلم ذاتي الإشراف باستخدام التنبؤ المقنّع قد حقق تقدماً كبيراً في تمثيل الصوت العام. تقدم هذه الدراسة نموذج التنبؤ المقنّع المحسّن "موديلينغ ديو المقنّع" (M2D)، الذي يتعلم من خلال التنبؤ بتمثيلات الإشارات المقنّعة التي تعمل كإشارات تدريب. على عكس الأساليب التقليدية، يحصل M2D على إشارة تدريبية عن طريق ترميز الجزء المقنّع فقط، مما يشجع الشبكتين في M2D على نمذجة الإدخال. بينما يحسن M2D من تمثيلات الصوت العامة، فإن تمثيلاً متخصصاً هو ضروري للتطبيقات العملية مثل تلك في المجالات الصناعية والطبية. تكون البيانات السرية والمملوكة غالباً محدودة الحجم وتتميز بتوزيع مختلف عن ذلك الموجود في مجموعات البيانات الأولية. لذلك، نقترح M2D لـ X (M2D-X)، وهو امتداد لـ M2D يمكنه تحقيق التدريب الأولي للتمثيلات المتخصصة لتطبيق X. يتعلم M2D-X من M2D ومن مهمة إضافية وإدخال الضوضاء الخلفية. نجعل المهمة الإضافية قابلة للتخصيص لتلبية مجموعة متنوعة من التطبيقات، بينما يساعد الضوضاء الخلفية على التعلم من بيانات صغيرة ويشكل مهمة تنقية تعزز صلابة التمثيل. مع هذه الخيارات التصميمية، يجب أن يكون M2D-X قادراً على تعلم تمثيل متخصص يلبي احتياجات التطبيقات المختلفة. أثبتت تجاربنا أن التمثيلات للصوت العام، والتي تم تخصيصها للمجال التنافسي للغاية AudioSet ومجال الكلام، وكذلك مهمة طبية صغيرة البيانات، حققت أداءً رفيع المستوى، مما يدل على إمكانية استخدام نماذجنا كإطار عام للتدريب الأولي للصوت. الرمز البرمجي الخاص بنا متاح عبر الإنترنت للمزيد من الدراسات في الرابط التالي: https://github.com/nttcslab/m2d


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ثنائي النمذجة المقنع: نحو إطار تدريب مسبق شامل للصوت | مستندات | HyperAI