HyperAIHyperAI
منذ 2 أشهر

AV-Lip-Sync+: الاستفادة من AV-HuBERT لاستغلال عدم التوافق متعدد الوسائط للكشف عن الفيديوهات المزيفة العميقة

Sahibzada Adil Shahzad; Ammarah Hashmi; Yan-Tsung Peng; Yu Tsao; Hsin-Min Wang
AV-Lip-Sync+: الاستفادة من AV-HuBERT لاستغلال عدم التوافق متعدد الوسائط للكشف عن الفيديوهات المزيفة العميقة
الملخص

الomanipولات متعددة الوسائط (والمعرفة أيضًا بالعمليات المزيفة الصوتية والبصرية العميقة) تجعل من الصعب على أجهزة الكشف عن العمليات المزيفة العميقة الأحادية الوسائط اكتشاف التزوير في المحتوى المتعدد الوسائط. لتجنب انتشار الدعاية الكاذبة وأخبار الزيف، يعد الاكتشاف الفوري حاسمًا. يمكن اكتشاف الضرر في أي وسيلة (أي البصرية أو السمعية) فقط من خلال نماذج متعددة الوسائط قادرة على استغلال كلا المعلوماتين في آن واحد. كانت الأساليب السابقة تعتمد بشكل أساسي على الفحص الجنائي للفيديو الأحادي الوسائط واستخدام التدريب الإشرافي الأولي لاكتشاف التزوير. تقترح هذه الدراسة طريقة جديدة تستند إلى مستخرج خصائص ذات تعلم ذاتي متعدد الوسائط (SSL) لاستغلال عدم التناسق بين الوسيلتين السمعية والبصرية لاكتشاف التزوير في الفيديو متعدد الوسائط. نستخدم نموذج Audio-Visual HuBERT (AV-HuBERT) المستمد من متحولات (transformers) والمدرب بشكل ذاتي أولي كمستخرج خصائص بصري وصوتي، وشبكة عصبية تلافيفية زمنية متعددة المقاييس لالتقاط الارتباط الزمني بين الوسيلتين السمعية والبصرية. بما أن AV-HuBERT يستخلص الخصائص البصرية فقط من منطقة الشفتين، فقد اعتمدنا أيضًا نموذج فيديو آخر مستمد من متحولات لاستغلال الخصائص الوجهية ورصد الآثار المكانية والزمنية التي تحدث أثناء عملية إنشاء العمليات المزيفة العميقة. أظهرت النتائج التجريبية أن نموذجنا يتفوق على جميع النماذج الموجودة ويحقق أداءً جديدًا رائدًا على مجموعات البيانات FakeAVCeleb وDeepfakeTIMIT.

AV-Lip-Sync+: الاستفادة من AV-HuBERT لاستغلال عدم التوافق متعدد الوسائط للكشف عن الفيديوهات المزيفة العميقة | أحدث الأوراق البحثية | HyperAI