HyperAIHyperAI
منذ 2 أشهر

فصل الأصوات المشتركة للأجسام المرئية

Gao, Ruohan ; Grauman, Kristen
فصل الأصوات المشتركة للأجسام المرئية
الملخص

تعلم كيف تبدو أصوات الأشياء من الفيديو أمر صعب، نظرًا لأنها غالبًا ما تتداخل بشكل كبير في قناة صوتية واحدة. تتجنب الطرق الحالية لفصل مصادر الصوت المرشدة بصريًا هذه المشكلة من خلال التدريب باستخدام مقاطع فيديو مختلطة اصطناعيًا، لكن هذا يضع قيودًا غير عملية على جمع بيانات التدريب وقد يمنع حتى تعلم خصائص الأصوات المختلطة "الحقيقية". نقدم نموذج تدريب مشترك يسمح بتعلم أصوات المستوى الكائن من مقاطع الفيديو متعددة المصادر غير المصنفة. يتطلب هدف التدريب الجديد الخاص بنا أن تكون أصوات الكائنات المشابهة في الشكل قابلة للتمييز بشكل متسق بواسطة الشبكة العصبية العميقة، مع إعادة إنتاج مسارات صوتية دقيقة على مستوى الفيديو لكل زوج تدريبي من المصادر. يفكك نهجنا الأصوات في مقاطع الفيديو الواقعية للاختبار، حتى في الحالات التي لم يتم فيها رصد الكائن بشكل فردي أثناء التدريب. نحصل على أفضل النتائج الحالية في فصل مصادر الصوت المرشدة بصريًا وإزالة الضوضاء الصوتية لقواعد البيانات MUSIC و AudioSet و AV-Bench.

فصل الأصوات المشتركة للأجسام المرئية | أحدث الأوراق البحثية | HyperAI