HyperAIHyperAI
منذ 17 أيام

FANS: دمج ASR وNLU لخدمة التعرف على اللغة الشفهية على الجهاز

Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow
FANS: دمج ASR وNLU لخدمة التعرف على اللغة الشفهية على الجهاز
الملخص

أنظمة فهم اللغة المنطوقة (SLU) تقوم بتحويل الأوامر الصوتية إلى معاني، والتي تُشفر على شكل نية (intent) وأزواج من تسميات الحقول (slot tags) وقيمها. تعتمد معظم أنظمة SLU الحالية على سلسلة من نموذجين عصبيين، حيث يحول النموذج الأول الإدخال الصوتي إلى نص (ASR)، ثم يُستخدم النموذج الثاني للتنبؤ بالنية والحقول بناءً على هذا النص (NLU). في هذه الورقة، نقدّم FANS، وهو نموذج جديد لـ SLU من النهاية إلى النهاية، يُدمج بين مُشفّر صوتي (ASR) ومُفكّك متعدد المهام (NLU) لاستخلاص النية، وتسميات الحقول، وقيمها مباشرةً من الإدخال الصوتي المعطى، مما يُلغِي الحاجة إلى التحويل النصي. يتكون FANS من مُشفّر صوتي مشترك وثلاثة مُفكّكات، اثنان منها مُفكّكات تسلسلية إلى تسلسل (seq-to-seq) تقومان بالتنبؤ بتسميات الحقول غير الفارغة وقيمها بالتوازي وبطريقة ذاتية التسلسل (auto-regressive). تتميز هندسة مُشفّر FANS ومشفراته العصبية بالمرونة، مما يسمح لنا باستخدام مزيج مختلف من نماذج LSTM والانتباه الذاتي (self-attention) وآليات الانتباه (attenders). أظهرت تجاربنا أن FANS يقلل من أخطاء ICER وIRER بنسبة 30٪ و7٪ على التوالي مقارنةً بأفضل النماذج الحالية لـ SLU من النهاية إلى النهاية عند اختبارها على مجموعة بيانات داخلية، وبنسبة 0.86٪ و2٪ مطلقة عند اختبارها على مجموعة بيانات عامة.

FANS: دمج ASR وNLU لخدمة التعرف على اللغة الشفهية على الجهاز | أحدث الأوراق البحثية | HyperAI