كشف التزييف الصوتي باستخدام XLS-R ذاتي التدريب و Classifier SLS

تُعد تقنيات الذكاء الاصطناعي التوليدي، بما في ذلك تحويل النص إلى صوت (TTS) وتحويل الصوت (VC)، غالبًا ما تصبح غير قابلة للتمييز عن العينات الحقيقية، مما يُشكّل تحديات كبيرة أمام الأفراد في التمييز بين المحتوى الحقيقي والاصطناعي. ويؤدي هذا الالتباس إلى تآكل الثقة في وسائط الإعلام، كما يُشكل تكرار تزوير إشارات الصوت الشخصية تهديدًا كبيرًا لخصوصية الأفراد وأمنهم. في مجال كشف الصوت المزيف (deepfake audio detection)، تعتمد معظم النماذج التي تحقق دقة كشف عالية حاليًا على نماذج مُدرّبة مسبقًا ذاتية التعلم (self-supervised pre-trained models). ومع التطور المستمر لخوارزميات إنشاء الصوت المزيف، أصبح الحفاظ على دقة تمييز عالية ضد الخوارزميات الجديدة أمرًا أكثر صعوبة.لتعزيز حساسية سمات الصوت المزيف، نقترح نموذجًا للكشف عن الصوت المزيف يضم وحدة اختيار الطبقات الحساسة (SLS - Sensitive Layer Selection). وباستخدام النموذج المُدرّب مسبقًا XLS-R، يمكن لنموذجنا استخلاص سمات صوتية متنوعة من طبقات متعددة، حيث تقدم كل طبقة معلومات تمييزية فريدة. وباستخدام فاصل SLS، يُمكن لنموذجنا التقاط المعلومات السياقية الحساسة عبر مستويات مختلفة من سمات الصوت، واستخدام هذه المعلومات بشكل فعّال في كشف الصوت المزيف. أظهرت النتائج التجريبية أن طريقةنا تحقق أداءً متفوقًا على مستوى الحد الأقصى (SOTA) على كلا مجموعتي بيانات ASVspoof 2021 DF وIn-the-Wild، حيث بلغ معدل الخطأ المتساوي (EER) 1.92% على مجموعة بيانات ASVspoof 2021 DF، و7.46% على مجموعة In-the-Wild. يمكن العثور على الشفرات والبيانات على الرابط: https://github.com/QiShanZhang/SLSforADD.