HyperAIHyperAI
منذ 2 أشهر

تعزيز الكلام السمعي البصري المستقل عن المتحدث باستخدام معالم الوجه في بيئات متعددة المتحدثين

Giovanni Morrone; Luca Pasa; Vadim Tikhanoff; Sonia Bergamaschi; Luciano Fadiga; Leonardo Badino
تعزيز الكلام السمعي البصري المستقل عن المتحدث باستخدام معالم الوجه في بيئات متعددة المتحدثين
الملخص

في هذا البحث، نتناول مشكلة تحسين الكلام للشخص المعني في سيناريو حفلة كوكتيل عندما تكون معلومات بصرية عن الشخص المعني متاحة. على عكس معظم الدراسات السابقة، لا نتعلم الخصائص البصرية على قواعد البيانات الصوتية-البصرية الصغيرة عادةً، بل نستخدم كاشف معالم الوجه المتاح بالفعل (مُدرب على قاعدة بيانات صور منفصلة). يتم استخدام المعالم من قبل نماذج تعتمد على LSTM لإنشاء أقنعة زمنية-تكرارية يتم تطبيقها على الطيف الصوتي للكلام المختلط. تظهر النتائج أن: (i) خصائص حركة المعالم هي خصائص فعالة للغاية لهذه المهمة، (ii) وبشكل مشابه للأعمال السابقة، فإن إعادة بناء طيف الصوت للمتحدث المستهدف بواسطة التعتيم أكثر دقة بكثير من إعادة بناء الطيف الصوتي مباشرة، و (iii) أفضل الأقنعة تعتمد على كل من خصائص حركة المعالم والطيف الصوتي للكلام المختلط. حسب علمنا، فإن النماذج المقترحة لدينا هي أول نماذج تم تدريبها وتقييمها على قواعد البيانات ذات الحجم المحدود GRID و TCD-TIMIT، والتي تحقق تحسين الكلام المستقل عن المتحدث في بيئة متعددة المتحدثين.

تعزيز الكلام السمعي البصري المستقل عن المتحدث باستخدام معالم الوجه في بيئات متعددة المتحدثين | أحدث الأوراق البحثية | HyperAI