منذ 7 أشهر

الملخص

في هذا البحث، نتناول مشكلة تحسين الكلام للشخص المعني في سيناريو حفلة كوكتيل عندما تكون معلومات بصرية عن الشخص المعني متاحة. على عكس معظم الدراسات السابقة، لا نتعلم الخصائص البصرية على قواعد البيانات الصوتية-البصرية الصغيرة عادةً، بل نستخدم كاشف معالم الوجه المتاح بالفعل (مُدرب على قاعدة بيانات صور منفصلة). يتم استخدام المعالم من قبل نماذج تعتمد على LSTM لإنشاء أقنعة زمنية-تكرارية يتم تطبيقها على الطيف الصوتي للكلام المختلط. تظهر النتائج أن: (i) خصائص حركة المعالم هي خصائص فعالة للغاية لهذه المهمة، (ii) وبشكل مشابه للأعمال السابقة، فإن إعادة بناء طيف الصوت للمتحدث المستهدف بواسطة التعتيم أكثر دقة بكثير من إعادة بناء الطيف الصوتي مباشرة، و (iii) أفضل الأقنعة تعتمد على كل من خصائص حركة المعالم والطيف الصوتي للكلام المختلط. حسب علمنا، فإن النماذج المقترحة لدينا هي أول نماذج تم تدريبها وتقييمها على قواعد البيانات ذات الحجم المحدود GRID و TCD-TIMIT، والتي تحقق تحسين الكلام المستقل عن المتحدث في بيئة متعددة المتحدثين.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Giovanni Morrone Luca Pasa Vadim Tikhanoff Sonia Bergamaschi Luciano Fadiga Leonardo Badino

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Giovanni Morrone Luca Pasa Vadim Tikhanoff Sonia Bergamaschi Luciano Fadiga Leonardo Badino

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Giovanni Morrone Luca Pasa Vadim Tikhanoff Sonia Bergamaschi Luciano Fadiga Leonardo Badino

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تعزيز الكلام السمعي البصري المستقل عن المتحدث باستخدام معالم الوجه في بيئات متعددة المتحدثين

Giovanni Morrone Luca Pasa Vadim Tikhanoff Sonia Bergamaschi Luciano Fadiga Leonardo Badino

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تعزيز الكلام السمعي البصري المستقل عن المتحدث باستخدام معالم الوجه في بيئات متعددة المتحدثين

Giovanni Morrone Luca Pasa Vadim Tikhanoff Sonia Bergamaschi Luciano Fadiga Leonardo Badino

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تعزيز الكلام السمعي البصري المستقل عن المتحدث باستخدام معالم الوجه في بيئات متعددة المتحدثين

Giovanni Morrone Luca Pasa Vadim Tikhanoff Sonia Bergamaschi Luciano Fadiga Leonardo Badino

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters