الانفصال الصوتي الصفري من مصادر متعددة من خلال التعلم القائم على الاستفسارات من بيانات مُسَمَّاة بشكل ضعيف

تواجه تقنيات التعلم العميق لفصل الصوت إلى مصادر صوتية مختلفة عدة تحديات. تتطلب المعمارية القياسية تدريب نماذج منفصلة لكل نوع من أنواع المصادر الصوتية. وعلى الرغم من أن بعض الفاصلات الشاملة تستخدم نموذجًا واحدًا لاستهداف مصادر متعددة، إلا أنها تواجه صعوبة في التعميم على المصادر غير المرئية. في هذه الورقة، نقترح نموذجًا مكونًا من ثلاث مكونات لتدريب فاصل صوتي شامل من مجموعة بيانات ضخمة ولكنها مُلصَّقة بعلامات ضعيفة: AudioSet. أولاً، نقترح نظامًا قائمًا على المحولات (Transformer) للكشف عن الأحداث الصوتية لمعالجة بيانات التدريب ذات العلامات الضعيفة. ثانيًا، نصمم نموذجًا لفصل الصوت القائم على الاستفسارات (query-based) يستفيد من هذه البيانات لتدريب النموذج. ثالثًا، نصمم معالجًا للتمثيل الخفي (latent embedding processor) لترميز الاستفسارات التي تحدد الأهداف الصوتية للفصل، مما يمكّن من التعميم الصفرية (zero-shot generalization). يعتمد نهجنا على نموذج واحد لفصل مصادر صوتية متعددة، ويعتمد حصريًا على بيانات مُلصَّقة بعلامات ضعيفة لتدريبه. بالإضافة إلى ذلك، يمكن استخدام الفاصل الصوتي المقترح في بيئة عمل صفرية (zero-shot)، حيث يتعلم فصل أنواع من المصادر الصوتية لم تُرَ أبدًا أثناء التدريب. ولتقييم أداء الفصل، نختبر نموذجنا على مجموعة MUSDB18 مع التدريب على مجموعة AudioSet غير المتشابكة. ونُثبت أداء التعميم الصفرية من خلال إجراء تجربة إضافية على أنواع صوتية تم استبعادها أثناء التدريب. وتحقق النتائج أداءً مماثلًا لنماذج التدريب المراقب الحالية من حيث نسبة مصدر-إرباك (Source-to-Distortion Ratio - SDR) في الحالتين.