هل تقصد حقًا ذلك؟ مجموعة بيانات عميقة مزيفة متعددة الوسائط تعتمد على المحتوى وطريقة متعددة الوسائط لتحديد المكان الزمني للتزوير

نظرًا لأثرها الاجتماعي الكبير، أصبح اكتشاف التزييف العميق (Deepfake) محط اهتمام متزايد في مجتمع رؤية الحاسوب. تعتمد معظم طرق اكتشاف التزييف العميق على الهوية، والسمات الوجهية، والتغيرات المكانية-الزمنية المستندة إلى الاضطرابات العدائية في كامل الفيديو أو في مواقع عشوائية، مع الحفاظ على معنى المحتوى دون تغيير. ومع ذلك، قد يحتوي التزييف العميق المتقدم على جزء صغير فقط من التلاعب في الفيديو أو الصوت، مما يسمح بتغيير جذري في معنى المحتوى، مثل عكس الاتجاه العاطفي بالكامل. نقدم مجموعة بيانات صوتية-بصرية للتحريفات المُزيفة (LAV-DF) مُصممة بذكاء لدعم مهمة تعلم تحديد مواقع التزييف الزمنية. وبشكل خاص، تُجرى التلاعبات الصوتية-البصرية الموجهة بالمضمون بشكل استراتيجي لتغيير اتجاه المشاعر في الفيديو ككل. كما نقدّم طريقة أساسية للقياس (baseline) لمجموعة البيانات المقترحة، وهي نموذج 3DCNN يُسمى اكتشاف التزييف الزمني الواعي بالحدود (BA-TFD)، والذي يُوجّه باستخدام دوال خسارة تشمل الخسارة التمييزية، وتناسق الحدود، وتصنيف الإطارات. تُظهر التحليلات الكمية والكيفية الواسعة أداءً قويًا للطريقة المقترحة في مهام تحديد مواقع التزييف الزمنية واكتشاف التزييفات المُزيفة.