HyperAIHyperAI
منذ 2 أشهر

نمذجة القناة الزمنية في الانتباه الذاتي متعدد الرؤوس للكشف عن الكلام المصنوع صناعياً

Truong, Duc-Tuan ; Tao, Ruijie ; Nguyen, Tuan ; Luong, Hieu-Thi ; Lee, Kong Aik ; Chng, Eng Siong
نمذجة القناة الزمنية في الانتباه الذاتي متعدد الرؤوس للكشف عن الكلام المصنوع صناعياً
الملخص

الكشف عن الكلام المُصنع مؤخرًا باستخدام نموذج الترانسفورمر (Transformer) يتفوق في أدائه مقارنة بنماذج الشبكات العصبية التلافيفية (Convolutional Neural Network). يمكن أن يُعزى هذا التحسين إلى قدرة النمذجة القوية للانتباه الذاتي متعدد الرؤوس (Multi-Head Self-Attention - MHSA) في نموذج الترانسفورمر، حيث يقوم بتعلم العلاقة الزمنية لكل رمز مدخل. ومع ذلك، يمكن تحديد تشوهات الكلام المُصنع في مناطق معينة من قنوات التردد والفترات الزمنية، بينما يتجاهل MHSA هذه الارتباطات الزمنية-الترددية للمتسلسلة المدخلة. في هذا البحث، اقترحنا وحدة نمذجة زمنية-ترددية (Temporal-Channel Modeling - TCM) لتعزيز قدرة MHSA على التقاط هذه الارتباطات الزمنية-الترددية. أظهرت نتائج التجارب على ASVspoof 2021 أنه مع إضافة فقط 0.03 مليون معلمة إضافية، يمكن لوحدة TCM أن تتفوق على النظام الأكثر تقدمًا بنسبة 9.25% في معدل الخطأ المتساوي (Equal Error Rate - EER). كشفت دراسة الإلغاء الأبعد أن استخدام المعلومات الزمنية والترددية معًا يؤدي إلى أكبر تحسن في الكشف عن الكلام المُصنع.