HyperAIHyperAI

Command Palette

Search for a command to run...

التكيف المشترك الموجه نحو الاتجاه لتحسين الكلام العصبي والتعرف عليه في بيئات المحادثات المتعددة الأطراف الحقيقية

Yicheng Du Aditya Arie Nugraha Kouhei Sekiguchi Yoshiaki Bando Mathieu Fontaine Kazuyoshi Yoshii

الملخص

يصف هذا البحث تقنية التعرف على الكلام المضطرب لجهاز واقع مُعزَّز يساعد في التواصل اللفظي داخل بيئات حوارية متعددة الأطراف في العالم الحقيقي. وقد تم دراسة نهج رئيسي بنشاط في البيئات المحاكاة، يتمثل في تنفيذ تحسين الكلام والتعرف الآلي على الكلام (ASR) بشكل تتابعي باستخدام شبكات عصبية عميقة (DNNs) مدربة بطريقة إشرافية. ومع ذلك، فإن مثل هذا النظام المدرب مسبقًا يفشل في العمل ضمن مهمتنا بسبب عدم التطابق بين ظروف التدريب والاختبار وحركة رأس المستخدم. لتحسين كلام المتحدث المستهدف فقط، نستخدم تقنية التركيز الصوتي بناءً على مقدر قناع الكلام المعتمد على الشبكة العصبية العميقة، والذي يمكنه استخراج المكونات الصوتية المرتبطة باتجاه معين بالنسبة للرأس بشكل تكيفي. نقترح طريقة تكيف شبه إشرافية تقوم بتحديث مقدر القناع ونموذج التعرف الآلي على الكلام بشكل مشترك أثناء التشغيل باستخدام إشارات كلام نقية ذات نصوص حقيقية وإشارات كلام مضطربة ذات نصوص مقدرة عالية الثقة. أظهرت التجارب المقارنة التي أجريت باستخدام نظام التعرف على الكلام من بعد الأكثر تقدمًا أن الطريقة المقترحة تحسن بشكل كبير من أداء التعرف الآلي على الكلام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp