HyperAIHyperAI

Command Palette

Search for a command to run...

نمذجة القناة الزمنية في الانتباه الذاتي متعدد الرؤوس للكشف عن الكلام المصنوع صناعياً

Duc-Tuan Truong Ruijie Tao Tuan Nguyen Hieu-Thi Luong Kong Aik Lee Eng Siong Chng

الملخص

الكشف عن الكلام المُصنع مؤخرًا باستخدام نموذج الترانسفورمر (Transformer) يتفوق في أدائه مقارنة بنماذج الشبكات العصبية التلافيفية (Convolutional Neural Network). يمكن أن يُعزى هذا التحسين إلى قدرة النمذجة القوية للانتباه الذاتي متعدد الرؤوس (Multi-Head Self-Attention - MHSA) في نموذج الترانسفورمر، حيث يقوم بتعلم العلاقة الزمنية لكل رمز مدخل. ومع ذلك، يمكن تحديد تشوهات الكلام المُصنع في مناطق معينة من قنوات التردد والفترات الزمنية، بينما يتجاهل MHSA هذه الارتباطات الزمنية-الترددية للمتسلسلة المدخلة. في هذا البحث، اقترحنا وحدة نمذجة زمنية-ترددية (Temporal-Channel Modeling - TCM) لتعزيز قدرة MHSA على التقاط هذه الارتباطات الزمنية-الترددية. أظهرت نتائج التجارب على ASVspoof 2021 أنه مع إضافة فقط 0.03 مليون معلمة إضافية، يمكن لوحدة TCM أن تتفوق على النظام الأكثر تقدمًا بنسبة 9.25% في معدل الخطأ المتساوي (Equal Error Rate - EER). كشفت دراسة الإلغاء الأبعد أن استخدام المعلومات الزمنية والترددية معًا يؤدي إلى أكبر تحسن في الكشف عن الكلام المُصنع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp