HyperAIHyperAI
منذ 2 أشهر

الصوت مُحاذاة زمنيًا للفيديو باستخدام الانحدار الذاتي

Ilpo Viertola, Vladimir Iashin, Esa Rahtu
الصوت مُحاذاة زمنيًا للفيديو باستخدام الانحدار الذاتي
الملخص

نقدم V-AURA، أول نموذج تتابعي يحقق تناسقًا زمنيًا عاليًا وصلة ذات صلة في توليد الصوت من الفيديو. يستخدم V-AURA مستخرج ميزات بصرية بتردد عالٍ واستراتيجية دمج ميزات متعددة الأوضاع بين الصوت والصورة لالتقاط أحداث حركة بصرية دقيقة وضمان التناسق الزمني الدقيق. بالإضافة إلى ذلك، نقترح VisualSound، وهو مجموعة بيانات مرجعية ذات صلة عالية بين الصوت والصورة. تعتمد VisualSound على VGGSound، وهي مجموعة بيانات فيديو تتكون من عينات تم استخراجها من YouTube. خلال عملية التجميع، نزيل العينات التي لا تكون فيها الأحداث السمعية متناسقة مع البصرية. يتفوق V-AURA على النماذج الحالية الأكثر تقدمًا في التناسق الزمني والصلة الدلالية مع الحفاظ على جودة صوت مماثلة. يمكن الوصول إلى الكود والعينات وVisualSound والنماذج عبر الرابط https://v-aura.notion.site

الصوت مُحاذاة زمنيًا للفيديو باستخدام الانحدار الذاتي | أحدث الأوراق البحثية | HyperAI