HyperAIHyperAI
منذ 9 أيام

TOLD: إطار جديد من النوع ثنائي المرحلة يراعي التداخل لتمييز المتكلم

Jiaming Wang, Zhihao Du, Shiliang Zhang
TOLD: إطار جديد من النوع ثنائي المرحلة يراعي التداخل لتمييز المتكلم
الملخص

في الآونة الأخيرة، تم تقديم التمييز العصبي من الطرف إلى الطرف (EEND) وحقق نتائج واعدة في السيناريوهات التي تشهد تداخلًا بين المتكلمين. في نموذج EEND، يتم صياغة مهمة التمييز الصوتي كمشكلة تنبؤ متعدد التصنيفات، حيث تُقدَّر أنشطة المتكلمين بشكل مستقل، دون أخذ الاعتماديات بينهم بعين الاعتبار بشكل كافٍ. لتجاوز هذه العيوب، نستخدم تقنية التشفير باستخدام المجموعة القوة (power set encoding) لإعادة صياغة مهمة التمييز الصوتي كمشكلة تصنيف أحادي التصنيف، ونُقدِّم نموذج EEND-OLA (EEND-OLA) الذي يسمح بتمثيل تداخل المتكلمين والاعتماديات بينهم بشكل صريح. مستوحين من نجاح الأنظمة الهجينة ذات المراحل المزدوجة، نقترح إطارًا جديدًا لتمييز الصوت المُراعي للتوافق (TOLD) يتضمن نموذج معالجة ما بعد مُراعٍ لتداخل المتكلمين (SOAP) لتحسين نتائج EEND-OLA بشكل تكراري. أظهرت النتائج التجريبية أن نموذج EEND-OLA المُقترح يحقق تحسنًا نسبيًا بنسبة 14.39٪ في معدلات خطأ التمييز (DER) مقارنةً بالنموذج الأصلي EEND، بينما يوفر استخدام نموذج SOAP تحسنًا إضافيًا بنسبة 19.33٪. في النهاية، يحقق إجراؤنا TOLD معدل خطأ تمييز قدره 10.14٪ على مجموعة بيانات CALLHOME، وهو أفضل نتيجة مسجلة حتى الآن على هذا المعيار، حسب معرفتنا.

TOLD: إطار جديد من النوع ثنائي المرحلة يراعي التداخل لتمييز المتكلم | أحدث الأوراق البحثية | HyperAI