خبير التزامن الصوتي هو كل ما تحتاجه لتحويل الكلام إلى حركة الشفاه في البيئة الحقيقية

في هذا العمل، نستكشف مشكلة مطابقة حركة الشفاه لفيديو وجه يتحدث بهوية عشوائية مع قطعة صوتية مستهدفة. تتفوق الأعمال الحالية في إنتاج حركات شفاه دقيقة على الصور الثابتة أو مقاطع الفيديو الخاصة بأفراد محددين تم رؤيتهم خلال مرحلة التدريب. ومع ذلك، فإنها تفشل في تحويل حركات الشفاه بدقة لهويات عشوائية في مقاطع الفيديو المتحركة وغير المقيّدة، مما يؤدي إلى جزء كبير من الفيديو يكون غير متناسق مع الصوت الجديد. نحدد الأسباب الرئيسية المتعلقة بهذا الأمر ونحلها من خلال التعلم من مميز قوي لحركة الشفاه (lip-sync discriminator). بعد ذلك، نقترح مقاييس وتقييمات جديدة وصارمة لقياس دقة مطابقة حركة الشفاه في مقاطع الفيديو غير المقيّدة. تظهر التقييمات الكمية الواسعة على مقاييسنا الصعبة أن دقة مطابقة حركة الشفاه للفيديوهات التي أنتجتها نموذجنا Wav2Lip تكاد تكون قريبة من الفيديوهات الحقيقية المتناسقة. نوفر فيديو توضيحي يظهر بوضوح الأثر الكبير لنموذجنا Wav2Lip ومقاييس التقييم على موقعنا الإلكتروني:\url{cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert-is-all-you-need-for-speech-to-lip-generation-in-the-wild}.تم إطلاق الكود والنماذج في هذا المستودع على GitHub:\url{github.com/Rudrabha/Wav2Lip}. يمكنكم أيضًا تجربة النموذج التفاعلي عبر هذا الرابط:\url{bhaasha.iiit.ac.in/lipsync}.