كشف التزييف العميق المتعدد الوسائط الصوتي والبصري

الفيديوهات المزيفة العميقة (Deepfakes) هي مقاطع فيديو تم إنشاؤها بشكل اصطناعي باستخدام خوارزميات الذكاء الاصطناعي. وعلى الرغم من أنها قد تكون مسلية، إلا أنها قد تُستغل بشكل خاطئ لتزوير الخطابات ونشر المعلومات الكاذبة. يشمل عملية إنشاء الفيديوهات المزيفة تلاعبًا بصريًا وصوتيًا معًا. وقد أدت الأبحاث المتعلقة بالكشف عن الفيديوهات المزيفة البصرية إلى تطوير عدد من أساليب الكشف وتقديم مجموعات بيانات، في حين تم إهمال تطوير الكشف عن الفيديوهات المزيفة الصوتية (مثل الكلام الاصطناعي الناتج عن أنظمة تحويل النص إلى كلام أو أنظمة تحويل الصوت) والعلاقة بين الوسائط البصرية والصوتية بشكل نسبي. في هذا العمل، نقترح مهمة جديدة للكشف المشترك عن الفيديوهات المزيفة البصرية والصوتية، ونُظهر أن الاستفادة من التزامن الداخلي بين الوسائط البصرية والصوتية يمكن أن يُسهم في تحسين كفاءة الكشف عن الفيديوهات المزيفة. وتُظهر التجارب أن الإطار المُقترح للكشف المشترك يتفوق على النماذج التي تم تدريبها بشكل مستقل، وفي الوقت نفسه يُظهر قدرة تعميم أفضل على أنواع غير مرئية من الفيديوهات المزيفة.