تيتا نييت: نموذج عصبي لتمثيل المتكلم باستخدام تباعد أحادي الأبعاد للتحويلات العميقة والاتصال العالمي

في هذه الورقة، نقترح بنية شبكة عصبية جديدة تُسمى TitaNet، مخصصة لاستخراج تمثيلات المتكلم. نستخدم تآثرات أحادية البُعد من النوع المنفصل (1D depth-wise separable convolutions) مصحوبة بطبقات سqueeze-and-excitation (SE) التي تأخذ بعين الاعتبار السياق العالمي، تليها طبقة تجميع إحصائيات تعتمد على الانتباه للقنوات، بهدف تحويل الجمل الصوتية ذات الطول المتغير إلى تمثيل ثابت الطول (يُعرف بـ t-vector). تتميز TitaNet بقابلية التوسع، وتحقق أداءً متقدماً على مستوى الحد الأقصى في مهمة التحقق من هوية المتكلم، حيث تصل معدل الخطأ المتساوي (EER) إلى 0.68٪ على ملف تجربة VoxCeleb1، كما تُظهر أداءً متميزاً في مهام تحليل التوقيت الصوتي (speaker diarization)، حيث تبلغ معدل خطأ التحليل (DER) 1.73٪ على مجموعة AMI-MixHeadset، و1.99٪ على AMI-Lapel، و1.11٪ على CH109. علاوةً على ذلك، قمنا بدراسة مختلف أحجام نموذج TitaNet، وقمنا بعرض نموذج خفيف يُسمى TitaNet-S الذي يحتوي فقط على 6 ملايين معلمة، ويحقق نتائج قريبة من الأفضل على مستوى الحد الأقصى في مهام التحليل الصوتي.