HyperAIHyperAI

Command Palette

Search for a command to run...

النماذج اللغوية هي متعلمون متعددو المهام غير مُدرَّبون

Jeffrey Wu Rewon Child Ilya Sutskever David Luan Alec Radford Dario Amodei

الملخص

تُعالج مهام معالجة اللغة الطبيعية، مثل الإجابة عن الأسئلة والترجمة الآلية وفهم القراءة والتلخيص، عادةً باستخدام التعلم المراقب على مجموعات بيانات مخصصة للمهام. نُظهر أن النماذج اللغوية تبدأ في تعلُّم هذه المهام دون أي تدريب صريح عند تدريبها على مجموعة بيانات جديدة تضم ملايين الصفحات على الويب تُسمى WebText. عندما تُشغَّل النموذج اللغوي مع وثيقة وعدد من الأسئلة، تصل الإجابات التي يُنتجها إلى 55 نقطة F1 على مجموعة بيانات CoQA، أي تُساوي أو تفوق أداء 3 من أصل 4 أنظمة مرجعية، دون استخدام أكثر من 127,000 مثال تدريب. ويُعدّ حجم القدرة الخاصة بالنموذج اللغوي عاملاً حاسماً في نجاح نقل المهام بدون تدريب صريح، كما أن زيادة هذا الحجم تُحسّن الأداء بشكل خطي لوغاريتمي عبر المهام المختلفة. ويتضمن أكبر نموذج لدينا، GPT-2، نموذجًا مُحَوِّلًا (Transformer) يحتوي على 1.5 مليار معلمة، ويحقق نتائجًا رائدة على 7 من أصل 8 مجموعات بيانات اختبار لنموذج اللغة في بيئة "صفر تدريب" (zero-shot)، مع أن النموذج لا يزال يعاني من التقليل من التكيّف (underfitting) مع بيانات WebText. وتُظهر العينات المُنتجة من النموذج هذه التحسينات، وتحتوي على فقرات متناسقة من النصوص. تشير هذه النتائج إلى طريق واعد لبناء أنظمة معالجة لغوية قادرة على تعلُّم أداء المهام من خلال التدريبات الطبيعية التي تحدث في الواقع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp