HyperAIHyperAI
منذ 2 أشهر

متحولات الفيديو إلى الصوت مع التزامن المحسن

Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà
متحولات الفيديو إلى الصوت مع التزامن المحسن
الملخص

توليد الصوت من الفيديو (V2A) يستفيد من خصائص الفيديو البصرية فقط لتقديم أصوات مقبولة تتوافق مع المشهد. ومن المهم أن تتطابق بداية الأصوات المولدة مع الأفعال البصرية المرتبطة بها، وإلا فإن ذلك يؤدي إلى ظهور ارتباكات غير طبيعية في التزامن. وقد استكشفت الدراسات الحديثة تطور تكييف مولدات الصوت على الصور الثابتة ثم خصائص الفيديو، مع التركيز على الجودة والتطابق الدلالي بينما تم إغفال التزامن، أو بتعويض بعض الجودة للتركيز على تحسين التزامن فقط. في هذا العمل، نقترح نموذجًا جينيراتيفيًا لتوليد الصوت من الفيديو يُسمى MaskVAT، والذي يربط بين كوديك صوتي عام عالي الجودة ونموذج جينيراتيفي مasked متتابع إلى متتابع. يسمح هذا الجمع بنمذجة كل من الجودة الصوتية العالية، والتطابق الدلالي، والتناسق الزمني في آن واحد. تظهر نتائجنا أنه من خلال الجمع بين كوديك عالي الجودة والميزات السمعية-البصرية المدربة بشكل صحيح وهياكل متتابعة إلى متتابعة موازية، نتمكن من تحقيق نتائج عالية التزامن من جهة، وفي الوقت نفسه المنافسة مع أفضل النماذج الجينيراتيفية للصوت التي لا تعتمد على الكوديك. يمكن الوصول إلى مقاطع الفيديو والأصوات المولدة عبر الرابط https://maskvat.github.io .

متحولات الفيديو إلى الصوت مع التزامن المحسن | أحدث الأوراق البحثية | HyperAI