XLSR-Mamba: نموذج مساحة حالة ثنائي الاتجاه بمنحنى مزدوج للكشف عن هجمات التزييف

لقد حققت نماذج الـ Transformers ومتغيراتها نجاحًا كبيرًا في معالجة الصوت. ومع ذلك، فإن آلية الانتباه الذاتي متعددة الرؤوس الخاصة بها تكون مكلفة من حيث الحسابات. ولذلك، تم اقتراح نموذج جديد يُعرف باسم Mamba، وهو نموذج فضائي حالة مُختَارة، كبديل ممكن. وبما أن Mamba أظهر نجاحًا في التعرف على الكلام التلقائي، قمنا بتطبيقه في كشف هجمات التزييف (spoofing attack). ويُعد Mamba مناسبًا جدًا لهذا المهمة لأنه قادر على استخلاص العيوب (artifacts) في إشارات الصوت المزيفة من خلال التعامل مع التسلسلات الطويلة. ومع ذلك، قد تتأثر أداء Mamba سلبًا عند تدريبه باستخدام بيانات مُصنفة محدودة. وللتقليل من هذا التأثير، نقترح دمج هيكل جديد لـ Mamba مبني على بنية من عمودين مع التعلم ذاتيًا، باستخدام نموذج wav2vec 2.0 المُدرّب مسبقًا. وأظهرت التجارب أن النهج المقترح يحقق نتائج تنافسية وأداءً أسرع في الاستدلال على مجموعتي بيانات ASVspoof 2021 LA وDF، كما أنه يبرز كأقوى مرشح للكشف عن هجمات التزييف على مجموعة البيانات الأكثر تحديًا المعروفة باسم In-the-Wild. وتم إتاحة الكود بشكل عام عبر الرابط التالي: https://github.com/swagshaw/XLSR-Mamba.