كشف التزوير متعدد الوسائط باستخدام التعلم المجمّع

أدى التطور السريع الأخير في تقنية الذكاء الاصطناعي (AI) إلى تمكين إنشاء فيديوهات مزيفة واقعية للغاية (Deepfakes)، مما جعل كشف الفيديوهات المزيفة (المعروفة أيضًا باسم الفيديوهات المُولَّدة بواسطة الذكاء الاصطناعي) مهمة بالغة الأهمية. وغالبًا ما لا تأخذ النماذج الحالية بعين الاعتبار المعالجة الموحدة للبيانات الصوتية والمرئية، مما يترك مجالًا واسعًا للتحسين المستقبلي. في هذا البحث، نركز على مهمة الكشف متعددة الوسائط عن التزييف، ونُقدّم طريقة عميقة للكشف عن التزييف تعتمد على التعلم المجمّع متعدد الوسائط. تتكون الطريقة المقترحة من أربع مكونات رئيسية: شبكة الفيديو، وشبكة الصوت، وشبكة الصوت والفيديو معًا، ووحدة التصويت. وباستخدام مقطع فيديو معين، يمكن للنظام المقترح القائم على التعلم متعدد الوسائط والمجمّع تحديد ما إذا كان الفيديو مزيفًا أم حقيقيًا. أظهرت النتائج التجريبية على مجموعة بيانات متعددة الوسائط (FakeAVCeleb) التي أُطلقت حديثًا أن الطريقة المقترحة حققت دقة بلغت 89٪، متفوقةً بشكل ملحوظ على النماذج الحالية.