HyperAIHyperAI
منذ 2 أشهر

التدريب المسبق لنموذج الكلام للفهم الشامل للغة المنطوقة

Loren Lugosch; Mirco Ravanelli; Patrick Ignoto; Vikrant Singh Tomar; Yoshua Bengio
التدريب المسبق لنموذج الكلام للفهم الشامل للغة المنطوقة
الملخص

بينما تربط أنظمة فهم اللغة المنطوقة التقليدية (SLU) الكلام بالنص، ثم النص بالنوايا، فإن أنظمة فهم اللغة المنطوقة من البداية إلى النهاية تربط الكلام مباشرة بالنوايا من خلال نموذج قابل للتدريب في خطوة واحدة. تحقيق دقة عالية بهذه النماذج من البداية إلى النهاية دون كمية كبيرة من بيانات التدريب هو أمر صعب. نقترح طريقة لتقليل متطلبات البيانات لأنظمة فهم اللغة المنطوقة من البداية إلى النهاية، حيث يتم تدريب النموذج أولاً على التنبؤ بالكلمات والهوميمات (phonemes)، مما يساعد على تعلم الخصائص الجيدة لفهم اللغة المنطوقة. نقدم مجموعة بيانات جديدة لفهم اللغة المنطوقة، وهي أوامر الكلام المتصلة (Fluent Speech Commands)، ونظهر أن طرقتنا تحسن الأداء سواء عند استخدام كامل مجموعة البيانات للتدريب أو عند استخدام جزء صغير منها فقط. كما نصف التجارب الأولية التي أجريت لتقييم قدرة النموذج على التعميم إلى عبارات جديدة لم يتم سماعها أثناء التدريب.