استكشاف الترابط الزمني للكشف الأعمَّ عن التزوير الوجهي في الفيديو

على الرغم من أن تقنيات تلاعب الوجه الحالية تحقق أداءً مذهلاً من حيث الجودة والقدرة على التحكم، إلا أنها تواجه صعوبات في إنتاج مقاطع فيديو لوجه متماسكة زمنيًا. في هذا العمل، نستكشف الاستفادة الكاملة من التماسك الزمني للكشف عن تلاعبات الوجه في الفيديو. لتحقيق ذلك، نقترح إطارًا جديدًا من النوع المتكامل من البداية إلى النهاية، يتكون من مرحلتين رئيسيتين. المرحلة الأولى هي شبكة تقوية زمنية كاملة (FTCN). الفكرة الأساسية في FTCN هي تقليل حجم نواة التقوية المكانية إلى 1، مع الحفاظ على حجم نواة التقوية الزمنية دون تغيير. وجدنا بشكل مفاجئ أن هذا التصميم الخاص يمكن أن يُفيد النموذج في استخلاص السمات الزمنية ويعزز من قدرة التعميم. أما المرحلة الثانية فهي شبكة محول زمني (Temporal Transformer)، والتي تهدف إلى استكشاف التماسك الزمني على المدى الطويل. يتميز الإطار المقترح بالعمومية والمرونة، حيث يمكن تدريبه مباشرة من الصفر دون الحاجة إلى نماذج مُدرّبة مسبقًا أو مجموعات بيانات خارجية. أظهرت التجارب الواسعة أن إطارنا يتفوق على الطرق الحالية، ويظل فعّالًا عند تطبيقه على الكشف عن أنواع جديدة من مقاطع فيديو تلاعب الوجه.