HyperAIHyperAI
منذ 17 أيام

TS-SEP: التمييز والفصل المشترك المشروط على مدمجات المتكلم المقدرة

Christoph Boeddeker, Aswin Shanmugam Subramanian, Gordon Wichern, Reinhold Haeb-Umbach, Jonathan Le Roux
TS-SEP: التمييز والفصل المشترك المشروط على مدمجات المتكلم المقدرة
الملخص

نظرًا لأن مهام تحديد الهوية (الدياريزايشن) وفصل المصادر في بيانات الاجتماعات مرتبطة ارتباطًا وثيقًا، نقترح هنا منهجية تُنفَّذ من خلال أداء الهدفين معًا. تعتمد هذه المنهجية على نهج تحديد نشاط صوت المتكلم المستهدف (TS-VAD) للدياريزايشن، والذي يفترض توفر تمثيلات أولية للمتكلمين. نستبدل الشبكة النهائية لتقدير نشاط المتكلم المدمجة في TS-VAD بشبكة تُنتج تقديرات لنشاط المتكلم بحلّة زمنية-تكرارية. وتُستخدم هذه التقديرات كأقنعة لاستخراج المصادر، إما عبر التمرير بالقناع (masking) أو عبر تقنية التوجيه الشعاعي (beamforming). ويمكن تطبيق هذه التقنية على المدخلات أحادية القناة ومتعددة القنوات، وفي الحالتين تحقق أداءً جديدًا لحالة الفئة الرائدة (state-of-the-art) في معدل خطأ الكلمات (WER) على مهمة التعرف على بيانات الاجتماعات من مجموعة بيانات LibriCSS. وبالإضافة إلى ذلك، نحسب معدلات خطأ الكلمات المُوجَّهة نحو المتكلم (speaker-aware WER) والمستقلة عن المتكلم (speaker-agnostic WER) لعزل مساهمة أخطاء التمييز في الأداء العام لمعدل خطأ الكلمات.