شبكات الانتباه الرسومية الطيفية-الزمنية من الطرف إلى الطرف للكشف عن التزوير في التحقق من الهوية الصوتية وكشف التزييف الصوتي العميق

تُعرف الأدوات التي تُستخدم لتمييز الكلام الحقيقي عن الكلام المزيف أو المُزيف بالذكاء الاصطناعي (Deepfake) بأنها موجودة في نطاقات فرعية معينة وفترات زمنية محددة. يمكن استخدام أساليب مختلفة لالتقاط ونمذجة هذه الأدوات، لكن لا يعمل أي منها بشكل جيد عبر طيف واسع من هجمات التزوير المختلفة. وبالتالي، يعتمد الكشف الموثوق غالبًا على دمج أنظمة كشف متعددة، كل منها مُعدّل للكشف عن أشكال مختلفة من الهجمات. في هذه الورقة، نُظهر أنه يمكن تحقيق أداء أفضل عندما يتم إجراء عملية الدمج داخل النموذج نفسه، وعندما يتم تعلُّم التمثيل تلقائيًا من مدخلات الموجة الخام. المساهمة الأساسية هي شبكة انتباه رسمية زمنية-طيفية (GAT) التي تتعلم العلاقات بين المؤشرات الممتدة عبر نطاقات فرعية مختلفة وفترات زمنية مختلفة. وباستخدام دمج رسومي على مستوى النموذج بين الرسوم الفرعية الطيفية (S) والزمنية (T)، بالإضافة إلى استراتيجية تجميع رسومي لتحسين التمييز، يحقق النموذج المُقترح RawGAT-ST معدل خطأ متساوٍ قدره 1.06٪ على قاعدة بيانات ASVspoof 2019 للوصول المنطقي. وهذا يُعد من أفضل النتائج المُبلغ عنها حتى الآن، ويمكن إعادة إنتاجه باستخدام نسخة مفتوحة المصدر من النموذج.