استكشاف فوائد تدريب نماذج لغوية متخصصة مقابل التكييف التعليمي

في الآونة الأخيرة، أظهرت النماذج اللغوية (LMs) التي تم تدريبها بأسلوب التوجيه على مهام متعددة، المعروفة أيضًا بـ "التحسين الموجه متعدد المهام (MT)"، قدرة على التعميم على مهام غير مرئية. وقد أظهرت الدراسات السابقة أن التوسع في عدد المهام التدريبية يُعد عنصرًا رئيسيًا في بناء نماذج MT أقوى. في هذا العمل، نُعلن عن اكتشاف غير متوقع: فنموذج خبير مُدرَّب على مهمة واحدة فقط يمكنه تجاوز أداء نموذج MT المدرب على أكثر من 300 مهمة مختلفة، وذلك على 11 مجموعة بيانات غير مرئية، وبمتوسط دقة أعلى بنسبة 3.20%، وعلى 13 مجموعة بيانات من معيار BIG-bench بنسبة 1.29% على التوالي. يثير هذا الاكتشاف شكوكًا حول الاعتقاد السائد سابقًا بأن التوسع البسيط في عدد المهام يؤدي بالضرورة إلى تحسين نماذج MT. وباستغلال هذا الاكتشاف، نُظهر أيضًا أن النهج الموزع المتمثل في تدريب نموذج خبير منفصل لكل مهمة تدريبية، بدلاً من تدريب نموذج MT واحد للاستدلال الصفر (zero-shot)، يتمتع بعدة مزايا، منها: (1) تجنب التحويل السلبي بين المهام الذي يحدث غالبًا أثناء التدريب الموجه، (2) القدرة على التعلم المستمر لمهام جديدة دون الحاجة لإعادة تدريب النموذج على المهام السابقة لتجنب النسيان الكارثي، و(3) إظهار قدرة تراكيبية (compositional) عند دمج النماذج الخبيرة الفردية معًا. يُمكن الاطلاع على الكود على الرابط التالي: https://github.com/joeljang/ELM.