HyperAIHyperAI
منذ 17 أيام

مُعالجة الانتباه للخلف في التحقق التلقائي من الهوية الصوتية مع جمل توثيق متعددة

Chang Zeng, Xin Wang, Erica Cooper, Xiaoxiao Miao, Junichi Yamagishi
مُعالجة الانتباه للخلف في التحقق التلقائي من الهوية الصوتية مع جمل توثيق متعددة
الملخص

تم استخدام تحليل التمييز الخطي الاحتمالي (PLDA) أو التشابه الكوسيني على نطاق واسع في أنظمة التحقق من الهوية الصوتية التقليدية كتقنيات خلفية لقياس التشابه بين أزواج من البيانات. ولتحقيق استفادة أفضل من عدة تسجيلات تدريبية (enrollment utterances)، نقترح نموذجًا خلفيًا جديدًا يعتمد على الانتباه (attention back-end)، يمكن استخدامه في التحقق من الهوية الصوتية المستقلة عن النص (TI) والمتوقفة على النص (TD) معًا، ويستخدم بنية مبنية على انتباه ذاتي من نوع dot-product المُدرَّج (scaled-dot self-attention) وشبكات انتباه ذاتي تغذية أمامية (feed-forward self-attention) لتعلم العلاقات الداخلية بين تسجيلات التدريب. ولإثبات فعالية النموذج المقترح، أجرينا سلسلة من التجارب على مجموعتي بيانات CNCeleb وVoxCeleb، بالاعتماد على مجموعة من مشغّلات الهوية الصوتية الحديثة جدًا مثل TDNN وResNet. أظهرت النتائج التجريبية التي استخدمت عدة تسجيلات تدريبية على مجموعة CNCeleb أن النموذج الخلفي القائم على الانتباه المُقترح يحقق معدلات أقل لـ EER وScore minDCF مقارنةً بـ PLDA والتشابه الكوسيني لكل مشغل هوية صوتية، كما أظهرت تجربة على VoxCeleb أن نموذجنا يمكن استخدامه حتى في الحالة التي تقتصر على تسجيل تدريب واحد فقط.

مُعالجة الانتباه للخلف في التحقق التلقائي من الهوية الصوتية مع جمل توثيق متعددة | أحدث الأوراق البحثية | HyperAI