HyperAIHyperAI
منذ 11 أيام

التناسق الصوتي مهم: كاشف تزييف متعدد الوسائط جديد

{Hsin-Min Wang, Yu Tsao, Yan-Tsung Peng, Sarwar Khan, Ammarah Hashmi, Sahibzada Adil Shahzad}
التناسق الصوتي مهم: كاشف تزييف متعدد الوسائط جديد
الملخص

تطورت تقنية الدّيبي فِيك (Deepfake) بشكل كبير، لكنها تمثل سيفًا ذا حدين بالنسبة للمجتمع. يمكن استخدامها لأغراض مفيدة، مثل استعادة المحتوى القديم في الأفلام ذات الجودة المنخفضة، أو لأغراض ضارة، مثل إنشاء لقطات مزيفة بهدف التلاعب بالرأي العام أو نشر محتوى جنسي غير مصرح به. وتم بذل الكثير من الجهود لمحاربة الاستخدام غير المشروع لهذه التقنية من خلال كشف اللقطات المزيفة، وذلك بفضل توفر مجموعات بيانات عامة واسعة النطاق، بالإضافة إلى النماذج القائمة على التعلم العميق أحادي الوضع (unimodal). ومع ذلك، تظل هذه الأساليب غير كافية في كشف التلاعب متعدد الأوضاع، مثل التلاعب في الصور والصوت معًا. تقدم هذه الدراسة طريقة جديدة للكشف عن الدّيبي فِيك متعدد الأوضاع تعتمد على تقنية قراءة الشفتين (lip-reading)، وتحظى باسم "Lip Sync Matters" (التناسق الصوتي الشفوي مهم). وتستهدف هذه الطريقة الخصائص الدلالية عالية المستوى، لاستغلال عدم التوافق بين تسلسل الشفتين المستخرج من الفيديو، والتسلسل الاصطناعي للشفتين المُنتَج من الصوت باستخدام نموذج Wav2lip، بهدف اكتشاف مقاطع الفيديو المزيفة. وأظهرت النتائج التجريبية أن الطريقة المقترحة تتفوق على عدة طرق حالية، سواء كانت أحادية الوضع أو مجمعة أو متعددة الأوضاع، على مجموعة بيانات FakeAVCeleb متعددة الأوضاع المتوفرة علنًا.

التناسق الصوتي مهم: كاشف تزييف متعدد الوسائط جديد | أحدث الأوراق البحثية | HyperAI