HyperAIHyperAI
منذ 2 أشهر

CLAPSep: الاستفادة من نموذج التدريب المقارن لاستخراج الصوت المستهدف بشروط متعددة الأوضاع

Ma, Hao ; Peng, Zhiyuan ; Li, Xu ; Shao, Mingjie ; Wu, Xixin ; Liu, Ju
CLAPSep: الاستفادة من نموذج التدريب المقارن لاستخراج الصوت المستهدف بشروط متعددة الأوضاع
الملخص

الفصل الصوتي الشامل (USS) يهدف إلى استخراج أنواع مختلفة من الأصوات من التسجيلات الحقيقية. يمكن تحقيق هذا الهدف من خلال استخراج الصوت المستهدف بالاستعلام اللغوي (TSE)، والذي يتكون عادةً من مكونين رئيسيين: شبكة الاستعلامات التي تقوم بتحويل استعلامات المستخدم إلى تضمينات شرطية، وشبكة الفصل التي تستخرج الصوت المستهدف حسب ذلك. تدرب الأساليب الحالية النماذج غالبًا من البداية. نتيجة لذلك، يتطلب الأمر كميات كبيرة من البيانات والموارد الحاسوبية لجعل النموذج المبتدأ عشوائيًا يفهم أحداث الصوت ويقوم بالفصل حسب ذلك. في هذه الورقة البحثية، نقترح دمج النماذج المدربة مسبقًا في نماذج TSE لحل المشكلة المذكورة أعلاه. بشكل أكثر تحديدًا، نقوم بتكييف وتكييف النموذج القوي للتدريب المسبق على التباين بين اللغة والصوت (CLAP) للاستخدام في USS، ونطلق عليه اسم CLAPSep. يمكن لـ CLAPSep أيضًا قبول مدخلات مستخدم مرنة، حيث يقوم بمعالجة الإرشادات الإيجابية والسالبة للمستخدم بمودالتها الواحدة و/أو المتعددة لاستخراج الصوت المستهدف. يمكن لهذه الخصائص الرئيسية لـ CLAPSep ليس فقط تعزيز أداء الاستخراج ولكن أيضًا تحسين متانة تطبيقاته. نقدم تجارب شاملة على 5 مجموعات بيانات متنوعة لإظهار الأداء المتفوق وقدرة التعميم في حالات عدم وجود أمثلة أو وجود أمثلة قليلة لنظامنا المقترح CLAPSep مع تقارب سريع في التدريب، مما يتفوق على الأساليب السابقة بفارق كبير. تم إصدار الكود الكامل وبعض الأمثلة الصوتية للإعادة والتقييم.