منذ 2 أشهر
الصوت مُحاذاة زمنيًا للفيديو باستخدام الانحدار الذاتي
Ilpo Viertola, Vladimir Iashin, Esa Rahtu

الملخص
نقدم V-AURA، أول نموذج تتابعي يحقق تناسقًا زمنيًا عاليًا وصلة ذات صلة في توليد الصوت من الفيديو. يستخدم V-AURA مستخرج ميزات بصرية بتردد عالٍ واستراتيجية دمج ميزات متعددة الأوضاع بين الصوت والصورة لالتقاط أحداث حركة بصرية دقيقة وضمان التناسق الزمني الدقيق. بالإضافة إلى ذلك، نقترح VisualSound، وهو مجموعة بيانات مرجعية ذات صلة عالية بين الصوت والصورة. تعتمد VisualSound على VGGSound، وهي مجموعة بيانات فيديو تتكون من عينات تم استخراجها من YouTube. خلال عملية التجميع، نزيل العينات التي لا تكون فيها الأحداث السمعية متناسقة مع البصرية. يتفوق V-AURA على النماذج الحالية الأكثر تقدمًا في التناسق الزمني والصلة الدلالية مع الحفاظ على جودة صوت مماثلة. يمكن الوصول إلى الكود والعينات وVisualSound والنماذج عبر الرابط https://v-aura.notion.site