HyperAIHyperAI

Command Palette

Search for a command to run...

التمييز النحوي للراوي العصبي من الطرف إلى الطرف باستخدام أهداف خالية من التبديل

Yusuke Fujita Naoyuki Kanda Shota Horiguchi Kenji Nagamatsu Shinji Watanabe

الملخص

في هذه الورقة، نقترح طريقة جديدة لتمييز المتكلمين تعتمد على الشبكة العصبية من الطرف إلى الطرف. على عكس معظم الطرق الحالية، لا تمتلك الطريقة المقترحة وحدات منفصلة لاستخراج تمثيلات المتكلمين وتصنيفها. بدلًا من ذلك، يحتوي نموذجنا على شبكة عصبية واحدة تُخرِج نتائج تمييز المتكلمين مباشرةً. ولتحقيق هذا النموذج، نُصِف مشكلة تمييز المتكلمين كمشكلة تصنيف متعدد التصنيفات، ونُقدِّم دالة هدف خالية من التبديل (permutation-free) لتصغير الأخطاء في تمييز المتكلمين مباشرةً دون التعرض لمشكلة تبديل أسماء المتكلمين. بالإضافة إلى بساطة النموذج من الطرف إلى الطرف، فإن الطريقة المقترحة تتمتع أيضًا بإمكانية التعامل بشكل صريح مع الكلام المتقاطع أثناء التدريب والاستنتاج. وبفضل هذه الميزة، يمكن تدريب النموذج بسهولة أو تكييفه باستخدام محادثات متعددة المتكلمين مسجلة فعليًا من خلال تغذية العلامات المقابلة للأجزاء ذات المتكلمين المتعددين. تم تقييم الطريقة المقترحة على خليط صوتي مُحاكى، وأظهرت نتائجها معدل خطأ في تمييز المتكلمين (Diarization Error Rate) قدره 12.28%، بينما بلغ معدل الخطأ في النظام التقليدي القائم على التجميع 28.77%. علاوةً على ذلك، أظهر التكييف بين المجالات باستخدام بيانات صوتية مسجلة فعليًا تحسنًا نسبيًا قدره 25.6% على مجموعة بيانات CALLHOME. يمكن الوصول إلى الكود المصدري للنظام عبر الرابط التالي: https://github.com/hitachi-speech/EEND.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp