HyperAIHyperAI

Command Palette

Search for a command to run...

فصل الأصوات المشتركة للأجسام المرئية

Gao Ruohan ; Grauman Kristen

الملخص

تعلم كيف تبدو أصوات الأشياء من الفيديو أمر صعب، نظرًا لأنها غالبًا ما تتداخل بشكل كبير في قناة صوتية واحدة. تتجنب الطرق الحالية لفصل مصادر الصوت المرشدة بصريًا هذه المشكلة من خلال التدريب باستخدام مقاطع فيديو مختلطة اصطناعيًا، لكن هذا يضع قيودًا غير عملية على جمع بيانات التدريب وقد يمنع حتى تعلم خصائص الأصوات المختلطة "الحقيقية". نقدم نموذج تدريب مشترك يسمح بتعلم أصوات المستوى الكائن من مقاطع الفيديو متعددة المصادر غير المصنفة. يتطلب هدف التدريب الجديد الخاص بنا أن تكون أصوات الكائنات المشابهة في الشكل قابلة للتمييز بشكل متسق بواسطة الشبكة العصبية العميقة، مع إعادة إنتاج مسارات صوتية دقيقة على مستوى الفيديو لكل زوج تدريبي من المصادر. يفكك نهجنا الأصوات في مقاطع الفيديو الواقعية للاختبار، حتى في الحالات التي لم يتم فيها رصد الكائن بشكل فردي أثناء التدريب. نحصل على أفضل النتائج الحالية في فصل مصادر الصوت المرشدة بصريًا وإزالة الضوضاء الصوتية لقواعد البيانات MUSIC و AudioSet و AV-Bench.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp