HyperAIHyperAI
منذ 11 أيام

AVTENet: شبكة تجميع قائمة على محول الصوت والصورة تستفيد من خبراء متعددين detección de deepfake في الفيديو

Ammarah Hashmi, Sahibzada Adil Shahzad, Chia-Wen Lin, Yu Tsao, Hsin-Min Wang
AVTENet: شبكة تجميع قائمة على محول الصوت والصورة تستفيد من خبراء متعددين detección de deepfake في الفيديو
الملخص

المحتوى المُزوّر الذي ينتشر على نطاق واسع عبر منصات وسائل التواصل الاجتماعي يُعد مشكلة اجتماعية كبيرة تتطلب تنظيمًا أكثر صرامة، كما تفرض تحديات جديدة على المجتمع البحثي. وقد لفت الانتشار الأخير لفيديوهات "ديفكي" عالية الواقعية الانتباه إلى الخطر المُشكل من التزوير الصوتي والبصري. في معظم الدراسات السابقة المتعلقة كشف الفيديوهات المزورة المُولَّدة بواسطة الذكاء الاصطناعي، تم الاعتماد فقط على المودالية البصرية أو الصوتية. وعلى الرغم من وجود بعض الطرق في الأدبيات التي تستفيد من كلا الموداليتين (الصوتية والبصرية) للكشف عن الفيديوهات المزورة، إلا أنها لم تُختَبر بشكل شامل على مجموعات بيانات متعددة المودالات لفيديوهات ديفكي التي تتضمن تلاعبًا صوتيًا وبصريًا معًا. علاوة على ذلك، تعتمد هذه الطرق الحالية في الغالب على الشبكات العصبية التلافيفية (CNN)، وتُعاني من دقة كشف منخفضة. مستوحى من النجاح الأخير لنموذج "Transformer" في مجالات متعددة، ونظرًا للتحديات التي تفرضها تقنية ديفكي، نقترح في هذا البحث إطارًا جديدًا يُسمى شبكة التجميع المستندة إلى "Transformer" الصوتي-البصري (AVTENet)، والذي يأخذ بعين الاعتبار كلًا من التلاعب الصوتي والبصري لتحقيق كشف فعّال للفيديوهات المزورة. بشكل خاص، يُدمج النموذج المقترح عدة نماذج قائمة بالكامل على معمارية "Transformer" تُسهم في استخلاص السمات البارزة للصوت، والفيديو، والصوت-الفيديو، بهدف التوصل إلى اتفاق في التنبؤ. ولغرض التقييم، استخدمنا مجموعة البيانات القياسية الحديثة متعددة المودالات الصوتية-البصرية "FakeAVCeleb". ولتحليل مفصل، قمنا بتقييم AVTENet ونماذجه الفرعية، بالإضافة إلى عدة طرق موجودة مسبقًا، على مجموعة من مجموعات الاختبار المختلفة ضمن مجموعة بيانات FakeAVCeleb. أظهرت النتائج التجريبية أن أفضل نموذج لدينا يتفوق على جميع الطرق الحالية، ويحقق أداءً متقدمًا على مستوى الحالة (state-of-the-art) في مجموعتي الاختبار (Testset-I وTestset-II) من مجموعة بيانات FakeAVCeleb.

AVTENet: شبكة تجميع قائمة على محول الصوت والصورة تستفيد من خبراء متعددين detección de deepfake في الفيديو | أحدث الأوراق البحثية | HyperAI