HyperAIHyperAI
منذ 17 أيام

UniverSLU: فهم اللغة المنطوقة الشاملة للمهام المتنوعة باستخدام تعليمات باللغة الطبيعية

Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Karen Livescu, Shinji Watanabe
UniverSLU: فهم اللغة المنطوقة الشاملة للمهام المتنوعة باستخدام تعليمات باللغة الطبيعية
الملخص

تستفيد الدراسات الحديثة من نماذج اللغة الكبيرة ذات القدرات متعددة المهام، باستخدام أوامر بلغة طبيعية لتوجيه سلوك النموذج، مما يفوق أداء النماذج المخصصة للمهام المحددة. مستلهمين من هذا الاتجاه، نطرح السؤال التالي: هل يمكننا بناء نموذج واحد يقوم بأداء مهام متعددة في فهم اللغة الشفهية (SLU) بشكل مشترك؟ نبدأ بتكيف نموذج مُدرّب مسبقًا للتمييز الصوتي التلقائي مع مهام إضافية باستخدام محددات مهام مكوّنة من رمز واحد. ثم نُحسّن هذا النهج من خلال التدريب بالإرشادات (instruction tuning)، أي التدريب الدقيق (fine-tuning) عبر وصف المهمة باستخدام تعليمات بلغة طبيعية متبوعة بقائمة بخيارات التصنيف. يمكن لنهجنا التعميم على وصفات مهام جديدة للمهام المرئية أثناء الاستدلال، مما يعزز سهولة الاستخدام. نُظهر فعالية نموذجنا المُوحد لتعلم متعدد المهام المسمى "UniverSLU" في 12 نوعًا من مهام تصنيف الصوت وإنشاء التسلسلات، مغطية 17 مجموعة بيانات و9 لغات. وعلى معظم المهام، يحقق UniverSLU أداءً تنافسيًا، وأحيانًا يفوق حتى نماذج المهام المخصصة. علاوةً على ذلك، نقيّم القدرات الصفرية (zero-shot)، ونجد أن النموذج يعمم على مجموعات بيانات وLanguages جديدة لأنواع المهام المرئية.