HyperAIHyperAI
منذ 15 أيام

M2D-CLAP: النمذجة المُقنعة ثنائية تلتقي بـ CLAP لتعلم تمثيل صوتي-لغوي عام

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto
M2D-CLAP: النمذجة المُقنعة ثنائية تلتقي بـ CLAP لتعلم تمثيل صوتي-لغوي عام
الملخص

يُمكّن التدريب المقارن بين اللغة والصوت (CLAP) من التنبؤ بدون عينات (ZS) للصوت، ويُظهر أداءً واعدًا في عدة مهام تصنيف. ومع ذلك، تظل التمثيلات الصوتية التقليدية ضرورية لعدة مهام لا يمكن تطبيق التنبؤ بدون عينات فيها (مثل المشكلات الانحدارية). هنا، نستكشف تمثيلًا جديدًا، وهو تمثيل صوتي-لغوي عام، يتمتع بأداء جيد في كل من التنبؤ بدون عينات والتعلم المن転. ولتحقيق ذلك، نقترح طريقة جديدة تُسمى M2D-CLAP، التي تدمج التعلم الذاتي المُشَكَّل (Masked Modeling Duo) M2D مع CLAP. يتعلم M2D تمثيلًا فعّالًا لتمثيل الإشارات الصوتية، بينما يُوجِّه CLAP هذا التمثيل ليتماشى مع تمثيلات النص. وبذلك، يتعلم M2D-CLAP تمثيلًا متنوعًا يسمح بالتنبؤ بدون عينات والتعلم المن転 معًا. أظهرت التجارب أن M2D-CLAP يُظهر أداءً متميزًا في التقييم الخطي، والضبط الدقيق، والتصنيف بدون عينات، بتحقيقه أداءً قياسيًا على مجموعة GTZAN بلغ 75.17%، مما يُسهم في تحقيق تمثيل صوتي-لغوي عام ذي كفاءة عالية.

M2D-CLAP: النمذجة المُقنعة ثنائية تلتقي بـ CLAP لتعلم تمثيل صوتي-لغوي عام | أحدث الأوراق البحثية | HyperAI