HyperAIHyperAI

Command Palette

Search for a command to run...

التقسيم التسلسلي للنوايا والتصنيف والتحديد المكاني للنُّقَطِ في النموذج النهاية-إلى-النهاية

Yiran Cao Nihal Potdar Anderson R. Avila

الملخص

تتأثر تفاعلية الإنسان مع الحاسوب (HCI) بشكل كبير بتأخير الاستجابات الناتجة عن أنظمة المحادثة الصوتية. ولهذا السبب، تم مؤخرًا اقتراح حلول متكاملة من الطرف إلى الطرف (e2e) لفهم اللغة الصوتية (SLU) لتقليل زمن التأخير. تسمح هذه النهج باستخراج المعلومات الدلالية مباشرة من الإشارة الصوتية، وبالتالي تجنب الحاجة إلى نص مكتوب مستمد من نظام التعرف التلقائي على الكلام (ASR). في هذا البحث، نقترح بنية مدمجة لحل e2e لفهم اللغة الصوتية مُصممة لسيناريوهات التدفق المستمر، حيث يتم معالجة كتل متتالية من الإشارة الصوتية بشكل مستمر للتنبؤ بالنية وقيم الحقول (slot values). تعتمد نموذجنا على شبكة عصبية متعددة الأبعاد (3D-CNN) وشبكة عصبية ذات ذاكرة طويلة قصيرة (LSTM) ذات اتجاه واحد. ونقارن بين أداء خمسة خسائر خالية من التماثل: طريقة التصنيف الزمني الاتصالي (CTC) ونسخة معدلة منها تُعرف بـ "التحديد الزمني الاتصالي" (CTL). تُنجز هذه الأخيرة ليس فقط التصنيف، بل أيضًا تحديد مواقع الأحداث الصوتية المتسلسلة. تم تقييم الحل المقترح على مجموعة بيانات Fluent Speech Command، وأظهرت النتائج قدرة نموذجنا على معالجة الإشارة الصوتية الواردة، حيث بلغت الدقة 98.97٪ لـ CTC و98.78٪ لـ CTL في تصنيف العلامة الواحدة، وبلغت 95.69٪ لـ CTC و95.28٪ لـ CTL في التنبؤ بعلامتين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التقسيم التسلسلي للنوايا والتصنيف والتحديد المكاني للنُّقَطِ في النموذج النهاية-إلى-النهاية | مستندات | HyperAI