AASIST: مكافحة التلاعب الصوتي باستخدام شبكات الرسم البياني الطيفي-الزماني المتكاملة

يمكن أن توجد العلامات التي تميز بين التصريحات المزيفة والتصريحات الحقيقية في المجال الطيفي أو الزمني. عادةً ما يعتمد اكتشافها بشكل موثوق على أنظمة مجمعة تتطلب حسابات معقدة، حيث يتم ضبط كل نظام فرعي لبعض العلامات المحددة. نسعى إلى تطوير نظام كفء ووحيد يمكنه اكتشاف نطاق واسع من هجمات التزييف المختلفة دون الحاجة إلى مجموعات على مستوى النتيجة. نقترح طبقة انتباه متراكمة غير متجانسة جديدة (heterogeneous stacking graph attention layer) تقوم بنمذجة العلامات التي تمتد عبر مجالات زمنية وطيفية غير متجانسة باستخدام آلية انتباه غير متجانسة وعقدة متراكمة. بفضل عملية الرسم البياني القصوى الجديدة (max graph operation) التي تتضمن آلية تنافسية ومخطط قراءة ممتد، يتفوق نهجنا المسمى AASIST على أحدث التقنيات بنسبة 20% نسبية. وحتى الإصدار الخفيف منه، AASIST-L، الذي يحتوي على 85 ألف معلمة فقط، يتفوق على جميع الأنظمة المنافسة.