HyperAIHyperAI

Command Palette

Search for a command to run...

الانفصال الصوتي الصفري من مصادر متعددة من خلال التعلم القائم على الاستفسارات من بيانات مُسَمَّاة بشكل ضعيف

Ke Chen Xingjian Du Bilei Zhu Zejun Ma Taylor Berg-Kirkpatrick Shlomo Dubnov

الملخص

تواجه تقنيات التعلم العميق لفصل الصوت إلى مصادر صوتية مختلفة عدة تحديات. تتطلب المعمارية القياسية تدريب نماذج منفصلة لكل نوع من أنواع المصادر الصوتية. وعلى الرغم من أن بعض الفاصلات الشاملة تستخدم نموذجًا واحدًا لاستهداف مصادر متعددة، إلا أنها تواجه صعوبة في التعميم على المصادر غير المرئية. في هذه الورقة، نقترح نموذجًا مكونًا من ثلاث مكونات لتدريب فاصل صوتي شامل من مجموعة بيانات ضخمة ولكنها مُلصَّقة بعلامات ضعيفة: AudioSet. أولاً، نقترح نظامًا قائمًا على المحولات (Transformer) للكشف عن الأحداث الصوتية لمعالجة بيانات التدريب ذات العلامات الضعيفة. ثانيًا، نصمم نموذجًا لفصل الصوت القائم على الاستفسارات (query-based) يستفيد من هذه البيانات لتدريب النموذج. ثالثًا، نصمم معالجًا للتمثيل الخفي (latent embedding processor) لترميز الاستفسارات التي تحدد الأهداف الصوتية للفصل، مما يمكّن من التعميم الصفرية (zero-shot generalization). يعتمد نهجنا على نموذج واحد لفصل مصادر صوتية متعددة، ويعتمد حصريًا على بيانات مُلصَّقة بعلامات ضعيفة لتدريبه. بالإضافة إلى ذلك، يمكن استخدام الفاصل الصوتي المقترح في بيئة عمل صفرية (zero-shot)، حيث يتعلم فصل أنواع من المصادر الصوتية لم تُرَ أبدًا أثناء التدريب. ولتقييم أداء الفصل، نختبر نموذجنا على مجموعة MUSDB18 مع التدريب على مجموعة AudioSet غير المتشابكة. ونُثبت أداء التعميم الصفرية من خلال إجراء تجربة إضافية على أنواع صوتية تم استبعادها أثناء التدريب. وتحقق النتائج أداءً مماثلًا لنماذج التدريب المراقب الحالية من حيث نسبة مصدر-إرباك (Source-to-Distortion Ratio - SDR) في الحالتين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الانفصال الصوتي الصفري من مصادر متعددة من خلال التعلم القائم على الاستفسارات من بيانات مُسَمَّاة بشكل ضعيف | مستندات | HyperAI