التحقق من التزييف الصوتي باستخدام الشبكات العصبية التلافيفية العميقة من خلال التعلم النقلية

تكتسب أنظمة التحقق التلقائي من الهوية الصوتية شعبية متزايدة في الوقت الحاضر؛ حيث تُعد هجمات التزوير من القضايا الأساسية، إذ تجعل هذه الأنظمة عرضة للخطر. بعض هجمات التزوير، مثل هجمات إعادة التسجيل، تُعد أسهل في التنفيذ، لكنها صعبة للغاية في الكشف عنها، مما يُبرز الحاجة إلى تدابير وقائية مناسبة. في هذا البحث، نقترح فئة صوتية تعتمد على شبكة عصبية عميقة ذات توليفات تفاضلية (Deep-Convolutional Neural Network) للكشف عن هجمات التزوير. تعتمد طريقة العمل المقترحة على تمثيل زمني-تكراري صوتي لكثافة الطاقة الطيفية على مقياس تردد ميل (Mel-spectrogram)، باستخدام التعلم العميق المتكرر (Residual Learning) كتكيف لبنية ResNet-34. وباستخدام نظام نموذج واحد، تم تحقيق معدل خطأ متساوٍ (Equal Error Rate - EER) بلغ 0.9056% على مجموعة التطور و5.32% على مجموعة التقييم في سيناريو الوصول المنطقي، ومعدل خطأ متساوٍ (EER) بلغ 5.87% على مجموعة التطور و5.74% على مجموعة التقييم في سيناريو الوصول المادي، ضمن مبادرة ASVspoof 2019.