HyperAIHyperAI
منذ 11 أيام

دمج EfficientNet وVision Transformers للكشف عن التزييف العميق في الفيديو

Davide Coccomini, Nicola Messina, Claudio Gennaro, Fabrizio Falchi
دمج EfficientNet وVision Transformers للكشف عن التزييف العميق في الفيديو
الملخص

تُعدّ الصور والفيديوهات المزيفة (Deepfakes) نتيجة للتعديل الرقمي لإنشاء صور ومقاطع فيديو واقعية لكنها مزيفة. وبفضل التطورات المذهلة في النماذج التوليدية العميقة، أصبح من الممكن اليوم إنتاج صور أو مقاطع فيديو مزيفة باستخدام مُشفّرات التوليد التباينية (VAEs) أو الشبكات التوليدية التنافسية (GANs). وتزداد هذه التقنيات توافرًا ودقةً، مما يؤدي إلى إنتاج مقاطع فيديو مزيفة يصعب اكتشافها. وعلى نحو تقليدي، تم استخدام الشبكات العصبية التلافيفية (CNNs) للكشف عن الفيديوهات المزيفة، حيث حققت أفضل النتائج باستخدام أساليب تعتمد على نموذج EfficientNet B7. في هذه الدراسة، نركّز على الكشف عن الفيديوهات المزيفة في الصور الوجهية، بالنظر إلى أن معظم الأساليب أصبحت دقيقة للغاية في توليد وجوه بشرية واقعية. وبشكل خاص، ندمج أنواعًا مختلفة من نماذج Transformers البصرية مع نموذج EfficientNet B0 مُستخدمًا كمُستخرج ميزات تلافيفي، ونحصل على نتائج مقارنة ببعض الأساليب الحديثة التي تعتمد على Transformers البصرية. وخلافًا للأساليب الرائدة حاليًا، لا نستخدم تقنيات التعلم التحويلي (Distillation) ولا أساليب التجميع (Ensemble). علاوة على ذلك، نقدّم إجراءً بسيطًا للاستنتاج يعتمد على نظام تصويت بسيط لمعالجة حالات وجود وجهين أو أكثر في نفس اللقطة الفيديوية. وقد حقق أفضل نموذج أداءً معامل AUC قدره 0.951، ومعامل F1 قدره 88.0%، وهو ما يقترب جدًا من الأداء الرائد في مسابقة الكشف عن الفيديوهات المزيفة (DFDC).

دمج EfficientNet وVision Transformers للكشف عن التزييف العميق في الفيديو | أحدث الأوراق البحثية | HyperAI