HyperAIHyperAI

Command Palette

Search for a command to run...

M2D-CLAP: النمذجة المُقنعة ثنائية تلتقي بـ CLAP لتعلم تمثيل صوتي-لغوي عام

Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada Masahiro Yasuda Shunsuke Tsubaki Keisuke Imoto

الملخص

يُمكّن التدريب المقارن بين اللغة والصوت (CLAP) من التنبؤ بدون عينات (ZS) للصوت، ويُظهر أداءً واعدًا في عدة مهام تصنيف. ومع ذلك، تظل التمثيلات الصوتية التقليدية ضرورية لعدة مهام لا يمكن تطبيق التنبؤ بدون عينات فيها (مثل المشكلات الانحدارية). هنا، نستكشف تمثيلًا جديدًا، وهو تمثيل صوتي-لغوي عام، يتمتع بأداء جيد في كل من التنبؤ بدون عينات والتعلم المن転. ولتحقيق ذلك، نقترح طريقة جديدة تُسمى M2D-CLAP، التي تدمج التعلم الذاتي المُشَكَّل (Masked Modeling Duo) M2D مع CLAP. يتعلم M2D تمثيلًا فعّالًا لتمثيل الإشارات الصوتية، بينما يُوجِّه CLAP هذا التمثيل ليتماشى مع تمثيلات النص. وبذلك، يتعلم M2D-CLAP تمثيلًا متنوعًا يسمح بالتنبؤ بدون عينات والتعلم المن転 معًا. أظهرت التجارب أن M2D-CLAP يُظهر أداءً متميزًا في التقييم الخطي، والضبط الدقيق، والتصنيف بدون عينات، بتحقيقه أداءً قياسيًا على مجموعة GTZAN بلغ 75.17%، مما يُسهم في تحقيق تمثيل صوتي-لغوي عام ذي كفاءة عالية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp