HyperAIHyperAI

Command Palette

Search for a command to run...

TS-SEP: التمييز والفصل المشترك المشروط على مدمجات المتكلم المقدرة

Christoph Boeddeker Aswin Shanmugam Subramanian Gordon Wichern Reinhold Haeb-Umbach Jonathan Le Roux

الملخص

نظرًا لأن مهام تحديد الهوية (الدياريزايشن) وفصل المصادر في بيانات الاجتماعات مرتبطة ارتباطًا وثيقًا، نقترح هنا منهجية تُنفَّذ من خلال أداء الهدفين معًا. تعتمد هذه المنهجية على نهج تحديد نشاط صوت المتكلم المستهدف (TS-VAD) للدياريزايشن، والذي يفترض توفر تمثيلات أولية للمتكلمين. نستبدل الشبكة النهائية لتقدير نشاط المتكلم المدمجة في TS-VAD بشبكة تُنتج تقديرات لنشاط المتكلم بحلّة زمنية-تكرارية. وتُستخدم هذه التقديرات كأقنعة لاستخراج المصادر، إما عبر التمرير بالقناع (masking) أو عبر تقنية التوجيه الشعاعي (beamforming). ويمكن تطبيق هذه التقنية على المدخلات أحادية القناة ومتعددة القنوات، وفي الحالتين تحقق أداءً جديدًا لحالة الفئة الرائدة (state-of-the-art) في معدل خطأ الكلمات (WER) على مهمة التعرف على بيانات الاجتماعات من مجموعة بيانات LibriCSS. وبالإضافة إلى ذلك، نحسب معدلات خطأ الكلمات المُوجَّهة نحو المتكلم (speaker-aware WER) والمستقلة عن المتكلم (speaker-agnostic WER) لعزل مساهمة أخطاء التمييز في الأداء العام لمعدل خطأ الكلمات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp