HyperAIHyperAI

Command Palette

Search for a command to run...

CLAPSep: الاستفادة من نموذج التدريب المقارن لاستخراج الصوت المستهدف بشروط متعددة الأوضاع

Hao Ma Zhiyuan Peng Xu Li Mingjie Shao Xixin Wu Ju Liu

الملخص

الفصل الصوتي الشامل (USS) يهدف إلى استخراج أنواع مختلفة من الأصوات من التسجيلات الحقيقية. يمكن تحقيق هذا الهدف من خلال استخراج الصوت المستهدف بالاستعلام اللغوي (TSE)، والذي يتكون عادةً من مكونين رئيسيين: شبكة الاستعلامات التي تقوم بتحويل استعلامات المستخدم إلى تضمينات شرطية، وشبكة الفصل التي تستخرج الصوت المستهدف حسب ذلك. تدرب الأساليب الحالية النماذج غالبًا من البداية. نتيجة لذلك، يتطلب الأمر كميات كبيرة من البيانات والموارد الحاسوبية لجعل النموذج المبتدأ عشوائيًا يفهم أحداث الصوت ويقوم بالفصل حسب ذلك. في هذه الورقة البحثية، نقترح دمج النماذج المدربة مسبقًا في نماذج TSE لحل المشكلة المذكورة أعلاه. بشكل أكثر تحديدًا، نقوم بتكييف وتكييف النموذج القوي للتدريب المسبق على التباين بين اللغة والصوت (CLAP) للاستخدام في USS، ونطلق عليه اسم CLAPSep. يمكن لـ CLAPSep أيضًا قبول مدخلات مستخدم مرنة، حيث يقوم بمعالجة الإرشادات الإيجابية والسالبة للمستخدم بمودالتها الواحدة و/أو المتعددة لاستخراج الصوت المستهدف. يمكن لهذه الخصائص الرئيسية لـ CLAPSep ليس فقط تعزيز أداء الاستخراج ولكن أيضًا تحسين متانة تطبيقاته. نقدم تجارب شاملة على 5 مجموعات بيانات متنوعة لإظهار الأداء المتفوق وقدرة التعميم في حالات عدم وجود أمثلة أو وجود أمثلة قليلة لنظامنا المقترح CLAPSep مع تقارب سريع في التدريب، مما يتفوق على الأساليب السابقة بفارق كبير. تم إصدار الكود الكامل وبعض الأمثلة الصوتية للإعادة والتقييم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp