HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال المُدمج بالمُدمج الصوتي: إطار فعّال للتمييز الصوتي للحديث المتداخل في سيناريوهات الاجتماعات

Zhihao Du Shiliang Zhang Siqi Zheng Zhijie Yan

الملخص

تم التعامل تقليديًا مع تصنيف الكلام المتداخل على أنه مشكلة تصنيف متعدد التصنيفات. في هذه الورقة، نعيد صياغة هذه المهمة كمشكلة تنبؤ بتصنيف واحد من خلال رموز متعددة من التصنيفات الثنائية إلى تصنيف واحد باستخدام المجموعة القوة، والتي تمثل التوليفات الممكنة للمحادثين المستهدفين. تتمتع هذه الصياغة بفوائد متعددة. أولاً، يتم نمذجة التداخل بين المحادثين المستهدفين بشكل صريح. ثانيًا، لم يعد الحاجة إلى اختيار حدود (thresholds). من خلال هذه الصياغة، نقترح إطار العمل المُسمى SEND (التنبؤ بالتمييز الصوتي المستند إلى تضمين المحادثين)، حيث يتم تحسين الشبكات التالية بشكل مشترك: معالج الصوت، ومعالج المحادثين، ومحرّكَي تقييم التشابه، وشبكة ما بعد المعالجة، بهدف التنبؤ بالرموز المشفرة بناءً على درجات التشابه بين السمات الصوتية وتمثيلات المحادثين. تُظهر النتائج التجريبية أن SEND يتمتع بعملية تعلم مستقرة، ويمكن تدريبه على بيانات ذات تداخل عالٍ دون الحاجة إلى تهيئة إضافية. والأهم من ذلك، يحقق أداءً متقدمًا على مستوى الحالة الحالية (SOTA) في السيناريوهات الواقعية للاجتماعات، مع عدد أقل من معاملات النموذج وتعقيد حسابي أقل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp