HyperAIHyperAI
منذ 9 أيام

التمييز النحوي للراوي العصبي من الطرف إلى الطرف باستخدام أهداف خالية من التبديل

Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Kenji Nagamatsu, Shinji Watanabe
التمييز النحوي للراوي العصبي من الطرف إلى الطرف باستخدام أهداف خالية من التبديل
الملخص

في هذه الورقة، نقترح طريقة جديدة لتمييز المتكلمين تعتمد على الشبكة العصبية من الطرف إلى الطرف. على عكس معظم الطرق الحالية، لا تمتلك الطريقة المقترحة وحدات منفصلة لاستخراج تمثيلات المتكلمين وتصنيفها. بدلًا من ذلك، يحتوي نموذجنا على شبكة عصبية واحدة تُخرِج نتائج تمييز المتكلمين مباشرةً. ولتحقيق هذا النموذج، نُصِف مشكلة تمييز المتكلمين كمشكلة تصنيف متعدد التصنيفات، ونُقدِّم دالة هدف خالية من التبديل (permutation-free) لتصغير الأخطاء في تمييز المتكلمين مباشرةً دون التعرض لمشكلة تبديل أسماء المتكلمين. بالإضافة إلى بساطة النموذج من الطرف إلى الطرف، فإن الطريقة المقترحة تتمتع أيضًا بإمكانية التعامل بشكل صريح مع الكلام المتقاطع أثناء التدريب والاستنتاج. وبفضل هذه الميزة، يمكن تدريب النموذج بسهولة أو تكييفه باستخدام محادثات متعددة المتكلمين مسجلة فعليًا من خلال تغذية العلامات المقابلة للأجزاء ذات المتكلمين المتعددين. تم تقييم الطريقة المقترحة على خليط صوتي مُحاكى، وأظهرت نتائجها معدل خطأ في تمييز المتكلمين (Diarization Error Rate) قدره 12.28%، بينما بلغ معدل الخطأ في النظام التقليدي القائم على التجميع 28.77%. علاوةً على ذلك، أظهر التكييف بين المجالات باستخدام بيانات صوتية مسجلة فعليًا تحسنًا نسبيًا قدره 25.6% على مجموعة بيانات CALLHOME. يمكن الوصول إلى الكود المصدري للنظام عبر الرابط التالي: https://github.com/hitachi-speech/EEND.

التمييز النحوي للراوي العصبي من الطرف إلى الطرف باستخدام أهداف خالية من التبديل | أحدث الأوراق البحثية | HyperAI