M2D-CLAP: النمذجة المُقنعة ثنائية تلتقي بـ CLAP لتعلم تمثيل صوتي-لغوي عام

يُمكّن التدريب المقارن بين اللغة والصوت (CLAP) من التنبؤ بدون عينات (ZS) للصوت، ويُظهر أداءً واعدًا في عدة مهام تصنيف. ومع ذلك، تظل التمثيلات الصوتية التقليدية ضرورية لعدة مهام لا يمكن تطبيق التنبؤ بدون عينات فيها (مثل المشكلات الانحدارية). هنا، نستكشف تمثيلًا جديدًا، وهو تمثيل صوتي-لغوي عام، يتمتع بأداء جيد في كل من التنبؤ بدون عينات والتعلم المن転. ولتحقيق ذلك، نقترح طريقة جديدة تُسمى M2D-CLAP، التي تدمج التعلم الذاتي المُشَكَّل (Masked Modeling Duo) M2D مع CLAP. يتعلم M2D تمثيلًا فعّالًا لتمثيل الإشارات الصوتية، بينما يُوجِّه CLAP هذا التمثيل ليتماشى مع تمثيلات النص. وبذلك، يتعلم M2D-CLAP تمثيلًا متنوعًا يسمح بالتنبؤ بدون عينات والتعلم المن転 معًا. أظهرت التجارب أن M2D-CLAP يُظهر أداءً متميزًا في التقييم الخطي، والضبط الدقيق، والتصنيف بدون عينات، بتحقيقه أداءً قياسيًا على مجموعة GTZAN بلغ 75.17%، مما يُسهم في تحقيق تمثيل صوتي-لغوي عام ذي كفاءة عالية.