استكشاف الذكاء الأخضر الاصطناعي للكشف عن التزييف العميق للصوت

كشف الكشف عن التزييف الصوتي العميق (الديب فايك) باستخدام أحدث التقنيات التي تعتمد على الشبكات العصبية العميقة يظهر أداءً متميزًا في التعرف. ومع ذلك، فإن هذا الأفضلية تأتي مع بصمة كربونية كبيرة. ويرجع السبب الرئيسي لذلك إلى استخدام الحوسبة عالية الأداء مع مسرّعات والوقت الطويل للتدريب. تُظهر الدراسات أن النموذج المتوسط للغة الطبيعية العميق (NLP) ينتج حوالي 626 ألف رطل من ثاني أكسيد الكربون (CO\textsubscript{2})، وهو ما يعادل خمسة أضعاف انبعاثات السيارة الأمريكية المتوسطة خلال عمرها التشغيلي. هذا بالتأكيد تهديد كبير للبيئة.لحل هذه المشكلة، يقدم هذا البحث إطار عمل جديد للكشف عن التزييف الصوتي العميق يمكن تدريبه بسلاسة باستخدام موارد CPU القياسية. يستخدم الإطار المقترح نماذج تعتمد على التعلم الذاتي بدون إشراف (Self-Supervised Learning - SSL) والتي تم تدريبها مسبقًا وتتوفر في المستودعات العامة. على عكس الأساليب الحالية التي تقوم بضبط نماذج SSL وإضافة شبكات عصبية عميقة أخرى للمهام اللاحقة، نحن نستغل خوارزميات التعلم الآلي التقليدية مثل الانحدار اللوجستي والشبكات العصبية الضحلة باستخدام المتجهات المدمجة (embeddings) المستخرجة من النموذج المدرب مسبقًا.تبين أن طريقتنا تحقق نتائج تنافسية مقارنة بالأساليب ذات البصمة الكربونية المرتفعة التي يتم استخدامها بشكل شائع. في التجارب التي أجريت باستخدام مجموعة بيانات ASVspoof 2019 LA، حققنا معدل خطأ متساوي (Equal Error Rate - EER) قدره 0.90٪ مع أقل من 1000 معلمة قابلة للتدريب. لتشجيع المزيد من الأبحاث في هذا الاتجاه ودعم النتائج القابلة للتكرار، سيتم جعل الكود البرمجي بلغة Python متاحًا للجمهور بعد القبول. Github: https://github.com/sahasubhajit/Speech-Spoofing-