HyperAIHyperAI
منذ 17 أيام

استكشاف التعلم المن転 للحصول على فهم لغوي شفهي من الطرف إلى الطرف

Subendhu Rongali, Beiye Liu, Liwei Cai, Konstantine Arkoudas, Chengwei Su, Wael Hamza
استكشاف التعلم المن転 للحصول على فهم لغوي شفهي من الطرف إلى الطرف
الملخص

تستخدم المساعدات الصوتية مثل أليكسا وسيري ومساعد جوجل عادةً نموذجًا ثنائي المراحل لفهم اللغة الشفهية: أولاً، مكون للاعتراف التلقائي باللغة الصوتية (ASR) لمعالجة كلام المستخدم وإنتاج نصوص مكتوبة، ثم مكون لفهم اللغة الطبيعية (NLU) لربط هذه النصوص بفرضية قابلة للتنفيذ. أما النموذج المتكامل من البداية إلى النهاية (E2E) الذي ينتقل مباشرة من الصوت إلى الفرضية، فهو خيار أكثر جاذبية. وقد أُظهر أن هذه الأنظمة أصغر حجمًا وأسرع وأفضل تحسينًا. لكنها تتطلب كميات هائلة من بيانات التدريب المتكاملة، علاوة على ذلك، لا تستفيد من البيانات التدريبية المتوفرة مسبقًا الخاصة بـ ASR وNLU.في هذه الدراسة، نقترح نموذجًا متكاملًا من البداية إلى النهاية مصممًا لتدريب مشترك على مهام متعددة من الصوت إلى النص، مثل ASR (الصوت-النص) وSLU (الصوت-الفرضية)، بالإضافة إلى مهام من النص إلى النص، مثل NLU (النص-الفرضية). ونُطلق على هذا النموذج اسم نموذج المهمات الصوتية-النصية الشاملة (AT-AT)، ونُظهر أنه يتفوق في الأداء على النماذج المتكاملة التي تم تدريبها على مهام فردية، خاصةً تلك التي تم تدريبها على بيانات محدودة. وقد أثبتنا هذه النتيجة على مجموعة بيانات داخلية للموسيقى، وعلى مجموعتين عامتين للبيانات: FluentSpeech وSNIPS Audio، حيث حققنا نتائج رائدة في المجال (SOTA). وبما أن نموذجنا يمكنه معالجة تسلسلات صوتية ونصية، وتعلم التنبؤ بتسلسل الهدف، فإنه يتيح لنا أيضًا إجراء تطبيق SLU متكامل من البداية إلى النهاية بدون تدريب (Zero-shot) من خلال تدريبه فقط على بيانات النص-الفرضية (دون أي بيانات صوتية) من مجال جديد. وقد قمنا بتقييم هذه القدرة على مجموعة بيانات Facebook TOP، ووضعنا معيارًا جديدًا للأداء في المهام المتكاملة من البداية إلى النهاية بدون تدريب. وسوف نُطلق قريبًا بيانات الصوت التي تم جمعها لبيانات TOP لخدمة الأبحاث المستقبلية.