HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف فوائد تدريب نماذج لغوية متخصصة مقابل التكييف التعليمي

Joel Jang Seungone Kim Seonghyeon Ye Doyoung Kim Lajanugen Logeswaran Moontae Lee Kyungjae Lee Minjoon Seo

الملخص

في الآونة الأخيرة، أظهرت النماذج اللغوية (LMs) التي تم تدريبها بأسلوب التوجيه على مهام متعددة، المعروفة أيضًا بـ "التحسين الموجه متعدد المهام (MT)"، قدرة على التعميم على مهام غير مرئية. وقد أظهرت الدراسات السابقة أن التوسع في عدد المهام التدريبية يُعد عنصرًا رئيسيًا في بناء نماذج MT أقوى. في هذا العمل، نُعلن عن اكتشاف غير متوقع: فنموذج خبير مُدرَّب على مهمة واحدة فقط يمكنه تجاوز أداء نموذج MT المدرب على أكثر من 300 مهمة مختلفة، وذلك على 11 مجموعة بيانات غير مرئية، وبمتوسط دقة أعلى بنسبة 3.20%، وعلى 13 مجموعة بيانات من معيار BIG-bench بنسبة 1.29% على التوالي. يثير هذا الاكتشاف شكوكًا حول الاعتقاد السائد سابقًا بأن التوسع البسيط في عدد المهام يؤدي بالضرورة إلى تحسين نماذج MT. وباستغلال هذا الاكتشاف، نُظهر أيضًا أن النهج الموزع المتمثل في تدريب نموذج خبير منفصل لكل مهمة تدريبية، بدلاً من تدريب نموذج MT واحد للاستدلال الصفر (zero-shot)، يتمتع بعدة مزايا، منها: (1) تجنب التحويل السلبي بين المهام الذي يحدث غالبًا أثناء التدريب الموجه، (2) القدرة على التعلم المستمر لمهام جديدة دون الحاجة لإعادة تدريب النموذج على المهام السابقة لتجنب النسيان الكارثي، و(3) إظهار قدرة تراكيبية (compositional) عند دمج النماذج الخبيرة الفردية معًا. يُمكن الاطلاع على الكود على الرابط التالي: https://github.com/joeljang/ELM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp