HyperAIHyperAI
منذ 2 أشهر

التكيف المشترك الموجه نحو الاتجاه لتحسين الكلام العصبي والتعرف عليه في بيئات المحادثات المتعددة الأطراف الحقيقية

Yicheng Du; Aditya Arie Nugraha; Kouhei Sekiguchi; Yoshiaki Bando; Mathieu Fontaine; Kazuyoshi Yoshii
التكيف المشترك الموجه نحو الاتجاه لتحسين الكلام العصبي والتعرف عليه في بيئات المحادثات المتعددة الأطراف الحقيقية
الملخص

يصف هذا البحث تقنية التعرف على الكلام المضطرب لجهاز واقع مُعزَّز يساعد في التواصل اللفظي داخل بيئات حوارية متعددة الأطراف في العالم الحقيقي. وقد تم دراسة نهج رئيسي بنشاط في البيئات المحاكاة، يتمثل في تنفيذ تحسين الكلام والتعرف الآلي على الكلام (ASR) بشكل تتابعي باستخدام شبكات عصبية عميقة (DNNs) مدربة بطريقة إشرافية. ومع ذلك، فإن مثل هذا النظام المدرب مسبقًا يفشل في العمل ضمن مهمتنا بسبب عدم التطابق بين ظروف التدريب والاختبار وحركة رأس المستخدم. لتحسين كلام المتحدث المستهدف فقط، نستخدم تقنية التركيز الصوتي بناءً على مقدر قناع الكلام المعتمد على الشبكة العصبية العميقة، والذي يمكنه استخراج المكونات الصوتية المرتبطة باتجاه معين بالنسبة للرأس بشكل تكيفي. نقترح طريقة تكيف شبه إشرافية تقوم بتحديث مقدر القناع ونموذج التعرف الآلي على الكلام بشكل مشترك أثناء التشغيل باستخدام إشارات كلام نقية ذات نصوص حقيقية وإشارات كلام مضطربة ذات نصوص مقدرة عالية الثقة. أظهرت التجارب المقارنة التي أجريت باستخدام نظام التعرف على الكلام من بعد الأكثر تقدمًا أن الطريقة المقترحة تحسن بشكل كبير من أداء التعرف الآلي على الكلام.

التكيف المشترك الموجه نحو الاتجاه لتحسين الكلام العصبي والتعرف عليه في بيئات المحادثات المتعددة الأطراف الحقيقية | أحدث الأوراق البحثية | HyperAI