HyperAIHyperAI

Command Palette

Search for a command to run...

تعزيز الكلام السمعي البصري المستقل عن المتحدث باستخدام معالم الوجه في بيئات متعددة المتحدثين

Giovanni Morrone Luca Pasa Vadim Tikhanoff Sonia Bergamaschi Luciano Fadiga Leonardo Badino

الملخص

في هذا البحث، نتناول مشكلة تحسين الكلام للشخص المعني في سيناريو حفلة كوكتيل عندما تكون معلومات بصرية عن الشخص المعني متاحة. على عكس معظم الدراسات السابقة، لا نتعلم الخصائص البصرية على قواعد البيانات الصوتية-البصرية الصغيرة عادةً، بل نستخدم كاشف معالم الوجه المتاح بالفعل (مُدرب على قاعدة بيانات صور منفصلة). يتم استخدام المعالم من قبل نماذج تعتمد على LSTM لإنشاء أقنعة زمنية-تكرارية يتم تطبيقها على الطيف الصوتي للكلام المختلط. تظهر النتائج أن: (i) خصائص حركة المعالم هي خصائص فعالة للغاية لهذه المهمة، (ii) وبشكل مشابه للأعمال السابقة، فإن إعادة بناء طيف الصوت للمتحدث المستهدف بواسطة التعتيم أكثر دقة بكثير من إعادة بناء الطيف الصوتي مباشرة، و (iii) أفضل الأقنعة تعتمد على كل من خصائص حركة المعالم والطيف الصوتي للكلام المختلط. حسب علمنا، فإن النماذج المقترحة لدينا هي أول نماذج تم تدريبها وتقييمها على قواعد البيانات ذات الحجم المحدود GRID و TCD-TIMIT، والتي تحقق تحسين الكلام المستقل عن المتحدث في بيئة متعددة المتحدثين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp