HyperAIHyperAI
منذ 7 أيام

النماذج اللغوية هي متعلمون متعددو المهام غير مُدرَّبون

{Jeffrey Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Dario Amodei}
الملخص

تُعالج مهام معالجة اللغة الطبيعية، مثل الإجابة عن الأسئلة والترجمة الآلية وفهم القراءة والتلخيص، عادةً باستخدام التعلم المراقب على مجموعات بيانات مخصصة للمهام. نُظهر أن النماذج اللغوية تبدأ في تعلُّم هذه المهام دون أي تدريب صريح عند تدريبها على مجموعة بيانات جديدة تضم ملايين الصفحات على الويب تُسمى WebText. عندما تُشغَّل النموذج اللغوي مع وثيقة وعدد من الأسئلة، تصل الإجابات التي يُنتجها إلى 55 نقطة F1 على مجموعة بيانات CoQA، أي تُساوي أو تفوق أداء 3 من أصل 4 أنظمة مرجعية، دون استخدام أكثر من 127,000 مثال تدريب. ويُعدّ حجم القدرة الخاصة بالنموذج اللغوي عاملاً حاسماً في نجاح نقل المهام بدون تدريب صريح، كما أن زيادة هذا الحجم تُحسّن الأداء بشكل خطي لوغاريتمي عبر المهام المختلفة. ويتضمن أكبر نموذج لدينا، GPT-2، نموذجًا مُحَوِّلًا (Transformer) يحتوي على 1.5 مليار معلمة، ويحقق نتائجًا رائدة على 7 من أصل 8 مجموعات بيانات اختبار لنموذج اللغة في بيئة "صفر تدريب" (zero-shot)، مع أن النموذج لا يزال يعاني من التقليل من التكيّف (underfitting) مع بيانات WebText. وتُظهر العينات المُنتجة من النموذج هذه التحسينات، وتحتوي على فقرات متناسقة من النصوص. تشير هذه النتائج إلى طريق واعد لبناء أنظمة معالجة لغوية قادرة على تعلُّم أداء المهام من خلال التدريبات الطبيعية التي تحدث في الواقع.

النماذج اللغوية هي متعلمون متعددو المهام غير مُدرَّبون | أحدث الأوراق البحثية | HyperAI