HyperAIHyperAI
منذ 15 أيام

مِينتايم: كشف التزييف الفيديو العميق ذي الهوية المتعددة والثابتة حسب الحجم

Davide Alessandro Coccomini, Giorgos Kordopatis Zilos, Giuseppe Amato, Roberto Caldelli, Fabrizio Falchi, Symeon Papadopoulos, Claudio Gennaro
مِينتايم: كشف التزييف الفيديو العميق ذي الهوية المتعددة والثابتة حسب الحجم
الملخص

في هذه الورقة، نقدّم مُنْتَجًا يُسمّى MINTIME، وهو نهج مُ(detected) للكشف عن التلاعب بالفيديو العميق (deepfake) يُركّز على اكتشاف الشذوذ المكاني والزمني، ويُعالج الحالات التي تتضمّن وجود أكثر من شخص في نفس الفيديو، بالإضافة إلى التغيرات في أحجام الوجوه. تتجاهل الطرق السابقة هذه المعلومات إما من خلال استخدام أساليب بسيطة للتوحيد ما بعد التقدير (a-posteriori)، مثل العمليات الحسابية المتوسطة أو العظمى، أو من خلال استخدام هوية واحدة فقط في عملية الاستنتاج، أي أكبر هوية من حيث الحجم. على النقيض من ذلك، يُبنى النهج المقترح على نموذج Spatio-Temporal TimeSformer مُدمجًا مع هيكل شبكة عصبية تلافيفية (Convolutional Neural Network) لاستخلاص الشذوذ المكاني والزمني من تسلسلات الوجوه الخاصة بعدة هويات مُصوّرة في الفيديو. يتم تحقيق ذلك من خلال آلية انتباه واعية بالهوية (Identity-aware Attention)، التي تُركّز على كل تسلسل وجه بشكل منفصل بناءً على عملية قناع (masking) وتسهّل التجميع على مستوى الفيديو. علاوة على ذلك، تم استخدام نوعين جديدين من التضمينات (embeddings): (أ) التضمين المكاني الزمني المتماسك (Temporal Coherent Positional Embedding)، الذي يُشفّر المعلومات الزمنية لكل تسلسل وجه، و(ب) التضمين الحجمي (Size Embedding)، الذي يُشفر حجم الوجوه كنسبة إلى حجم إطار الفيديو. تُمكّن هذه التوسّعات نظامنا من التكيّف بشكل ممتاز في البيئات الطبيعية (in the wild) من خلال تعلّم كيفية دمج المعلومات من عدة هويات، وهي معلومة غالبًا ما تُهمل في الطرق الأخرى المُنشورة في الأدبيات. وقد حقق النهج المقترح نتائج متقدمة على مستوى الحالة الحالية (state-of-the-art) على مجموعة بيانات ForgeryNet، مع تحسّن يصل إلى 14% في مقياس AUC في الفيديوهات التي تحتوي على أكثر من شخص، كما أظهر قدرات تعميم واسعة في البيئات المُتعددة للتحايل (cross-forgery) والمتعددة للمجموعات (cross-dataset). يُتاح الكود المصدر للنظام للجمهور عبر الرابط التالي: https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection.

مِينتايم: كشف التزييف الفيديو العميق ذي الهوية المتعددة والثابتة حسب الحجم | أحدث الأوراق البحثية | HyperAI