منذ 8 أشهر

الملخص

تعلم كيف تبدو أصوات الأشياء من الفيديو أمر صعب، نظرًا لأنها غالبًا ما تتداخل بشكل كبير في قناة صوتية واحدة. تتجنب الطرق الحالية لفصل مصادر الصوت المرشدة بصريًا هذه المشكلة من خلال التدريب باستخدام مقاطع فيديو مختلطة اصطناعيًا، لكن هذا يضع قيودًا غير عملية على جمع بيانات التدريب وقد يمنع حتى تعلم خصائص الأصوات المختلطة "الحقيقية". نقدم نموذج تدريب مشترك يسمح بتعلم أصوات المستوى الكائن من مقاطع الفيديو متعددة المصادر غير المصنفة. يتطلب هدف التدريب الجديد الخاص بنا أن تكون أصوات الكائنات المشابهة في الشكل قابلة للتمييز بشكل متسق بواسطة الشبكة العصبية العميقة، مع إعادة إنتاج مسارات صوتية دقيقة على مستوى الفيديو لكل زوج تدريبي من المصادر. يفكك نهجنا الأصوات في مقاطع الفيديو الواقعية للاختبار، حتى في الحالات التي لم يتم فيها رصد الكائن بشكل فردي أثناء التدريب. نحصل على أفضل النتائج الحالية في فصل مصادر الصوت المرشدة بصريًا وإزالة الضوضاء الصوتية لقواعد البيانات MUSIC و AudioSet و AV-Bench.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار