HyperAIHyperAI
منذ 9 أيام

التعرف على المتكلم العصبي من الطرف إلى الطرف باستخدام الانتباه الذاتي

Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Yawen Xue, Kenji Nagamatsu, Shinji Watanabe
التعرف على المتكلم العصبي من الطرف إلى الطرف باستخدام الانتباه الذاتي
الملخص

تم تطوير التمييز الصوتي للتحدث (Speaker Diarization) بشكل رئيسي بناءً على تجميع متجهات المتحدث (speaker embeddings). ومع ذلك، فإن النهج القائم على التجميع يعاني من مشكلتين رئيسيتين: أولًا، إنه لا يتم تحسينه بشكل مباشر لتقليل أخطاء التمييز الصوتي، وثانيًا، لا يمكنه التعامل بشكل صحيح مع تداخل المتحدثين. ولحل هاتين المشكلتين، تم مؤخرًا اقتراح طريقة التمييز الصوتي العصبي من البداية إلى النهاية (End-to-End Neural Diarization - EEND)، التي تستخدم شبكة LSTM ذات اتجاهين (BLSTM) لإخراج نتائج التمييز الصوتي مباشرةً عند إدخال تسجيل صوتي يحتوي على أكثر من متحدث. في هذه الدراسة، قمنا بتحسين EEND من خلال استبدال كتل BLSTM بكتل انتباه ذاتي (self-attention blocks). على عكس BLSTM التي تعتمد فقط على الحالات المخفية السابقة واللاحقة، فإن الانتباه الذاتي يعتمد مباشرة على جميع الإطارات الأخرى، مما يجعله أكثر ملاءمة لمعالجة مشكلة التمييز الصوتي. تم تقييم الطريقة المقترحة على خلايا محاكاة، ومحادثات هاتفية حقيقية، وتسجيلات حوارية حقيقية. أظهرت النتائج التجريبية أن الانتباه الذاتي كان العامل الحاسم لتحقيق أداء ممتاز، وأن الطريقة المقترحة تفوق بشكل ملحوظ الطريقة التقليدية القائمة على BLSTM. بل تفوقت حتى على أفضل طريقة حالية تعتمد على تجميع متجهات x-vector. وأخيرًا، من خلال تصور التمثيل الخفي، أظهرنا أن الانتباه الذاتي قادر على التقاط الخصائص الصوتية الشاملة للمتحدث إلى جانب الديناميات المحلية للنشاط الصوتي. يُتاح كود المصدر الخاص بنا عبر الإنترنت على الرابط: https://github.com/hitachi-speech/EEND.

التعرف على المتكلم العصبي من الطرف إلى الطرف باستخدام الانتباه الذاتي | أحدث الأوراق البحثية | HyperAI