HyperAIHyperAI
منذ 8 أيام

الاستدلال المُدمج بالمُدمج الصوتي: إطار فعّال للتمييز الصوتي للحديث المتداخل في سيناريوهات الاجتماعات

Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan
الاستدلال المُدمج بالمُدمج الصوتي: إطار فعّال للتمييز الصوتي للحديث المتداخل في سيناريوهات الاجتماعات
الملخص

تم التعامل تقليديًا مع تصنيف الكلام المتداخل على أنه مشكلة تصنيف متعدد التصنيفات. في هذه الورقة، نعيد صياغة هذه المهمة كمشكلة تنبؤ بتصنيف واحد من خلال رموز متعددة من التصنيفات الثنائية إلى تصنيف واحد باستخدام المجموعة القوة، والتي تمثل التوليفات الممكنة للمحادثين المستهدفين. تتمتع هذه الصياغة بفوائد متعددة. أولاً، يتم نمذجة التداخل بين المحادثين المستهدفين بشكل صريح. ثانيًا، لم يعد الحاجة إلى اختيار حدود (thresholds). من خلال هذه الصياغة، نقترح إطار العمل المُسمى SEND (التنبؤ بالتمييز الصوتي المستند إلى تضمين المحادثين)، حيث يتم تحسين الشبكات التالية بشكل مشترك: معالج الصوت، ومعالج المحادثين، ومحرّكَي تقييم التشابه، وشبكة ما بعد المعالجة، بهدف التنبؤ بالرموز المشفرة بناءً على درجات التشابه بين السمات الصوتية وتمثيلات المحادثين. تُظهر النتائج التجريبية أن SEND يتمتع بعملية تعلم مستقرة، ويمكن تدريبه على بيانات ذات تداخل عالٍ دون الحاجة إلى تهيئة إضافية. والأهم من ذلك، يحقق أداءً متقدمًا على مستوى الحالة الحالية (SOTA) في السيناريوهات الواقعية للاجتماعات، مع عدد أقل من معاملات النموذج وتعقيد حسابي أقل.

الاستدلال المُدمج بالمُدمج الصوتي: إطار فعّال للتمييز الصوتي للحديث المتداخل في سيناريوهات الاجتماعات | أحدث الأوراق البحثية | HyperAI