التحقق التلقائي من هوية المتكلم والكشف عن التزوير والتحريف العميق باستخدام wav2vec 2.0 وتعزيز البيانات

تعتمد الأداء الفعلي لأنظمة الوقاية من التزييف بشكل جوهري على استخدام بيانات تدريب تمثل بدرجة كافية. وبما أن هذه البيانات غالبًا ما تكون محدودة، فإن الحلول الحالية تفتقر عادة إلى القدرة على التعميم تجاه الهجمات التي تُكتشف في البيئات الحقيقية. ولهذا، هناك حاجة ماسة إلى استراتيجيات لتحسين الموثوقية في مواجهة هجمات غير خاضعة للرقابة وغير متوقعة. في هذا البحث، نقدم جهودنا لاستخدام التعلم ذاتي التوجيه على شكل وحدة أمامية من نوع wav2vec 2.0 مع عملية التخصيص الدقيق (fine-tuning). وعلى الرغم من أن التمثيلات الأساسية الأولية تم تعلمها باستخدام بيانات حقيقية فقط، دون أي بيانات مزيفة، إلا أننا تمكنا من تحقيق أقل معدلات خطأ متساوية مُبلغ عنها في الأدبيات بالنسبة لكلا قاعدتي بيانات ASVspoof 2021 Logical Access وDeepfake. وعند دمج هذه النتائج مع تقنيات تكبير البيانات (data augmentation)، فإن التحسن الناتج يقارب 90% مقارنة بنظامنا الأساسي.