منذ 4 أشهر

النماذج اللغوية هي متعلمون متعددو المهام غير مُدرَّبون

{Jeffrey Wu Rewon Child Ilya Sutskever David Luan Alec Radford Dario Amodei}

الملخص

تُعالج مهام معالجة اللغة الطبيعية، مثل الإجابة عن الأسئلة والترجمة الآلية وفهم القراءة والتلخيص، عادةً باستخدام التعلم المراقب على مجموعات بيانات مخصصة للمهام. نُظهر أن النماذج اللغوية تبدأ في تعلُّم هذه المهام دون أي تدريب صريح عند تدريبها على مجموعة بيانات جديدة تضم ملايين الصفحات على الويب تُسمى WebText. عندما تُشغَّل النموذج اللغوي مع وثيقة وعدد من الأسئلة، تصل الإجابات التي يُنتجها إلى 55 نقطة F1 على مجموعة بيانات CoQA، أي تُساوي أو تفوق أداء 3 من أصل 4 أنظمة مرجعية، دون استخدام أكثر من 127,000 مثال تدريب. ويُعدّ حجم القدرة الخاصة بالنموذج اللغوي عاملاً حاسماً في نجاح نقل المهام بدون تدريب صريح، كما أن زيادة هذا الحجم تُحسّن الأداء بشكل خطي لوغاريتمي عبر المهام المختلفة. ويتضمن أكبر نموذج لدينا، GPT-2، نموذجًا مُحَوِّلًا (Transformer) يحتوي على 1.5 مليار معلمة، ويحقق نتائجًا رائدة على 7 من أصل 8 مجموعات بيانات اختبار لنموذج اللغة في بيئة "صفر تدريب" (zero-shot)، مع أن النموذج لا يزال يعاني من التقليل من التكيّف (underfitting) مع بيانات WebText. وتُظهر العينات المُنتجة من النموذج هذه التحسينات، وتحتوي على فقرات متناسقة من النصوص. تشير هذه النتائج إلى طريق واعد لبناء أنظمة معالجة لغوية قادرة على تعلُّم أداء المهام من خلال التدريبات الطبيعية التي تحدث في الواقع.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
coreference-resolution-on-winograd-schema	GPT-2-XL 1.5B	Accuracy: 70.7
dialogue-state-tracking-on-simmc2-0	GPT-2	Act F1: 94.5 Slot F1: 81.7
document-summarization-on-cnn-daily-mail	GPT-2	ROUGE-1: 29.34 ROUGE-2: 8.27 ROUGE-L: 26.58
language-modelling-on-enwiki8	GPT-2 (48 layers, h=1600)	Bit per Character (BPC): 0.93 Number of params: 1542M
language-modelling-on-lambada	GPT-2 1.5B (Zero Shot)	Accuracy: 63.24 Perplexity: 8.63
language-modelling-on-one-billion-word	GPT-2	Number of params: 1.54B PPL: 42.16
language-modelling-on-penn-treebank-word	GPT-2	Params: 1542M Test perplexity: 35.76
language-modelling-on-text8	GPT-2	Bit per Character (BPC): 0.98 Number of params: 1542M
language-modelling-on-wikitext-103	GPT-2 Large	Number of params: 774M Test perplexity: 22.05
language-modelling-on-wikitext-103	GPT-2 Small	Number of params: 124M Test perplexity: 37.50
language-modelling-on-wikitext-103	GPT-2 Full	Number of params: 1542M Test perplexity: 17.48
language-modelling-on-wikitext-103	GPT-2 Medium	Number of params: 355M Test perplexity: 26.37
language-modelling-on-wikitext-2	GPT-2 (medium)	Number of params: 345M Test perplexity: 22.76
language-modelling-on-wikitext-2	GPT-2 (large)	Number of params: 762M Test perplexity: 19.93
language-modelling-on-wikitext-2	GPT-2	Number of params: 1542M Test perplexity: 18.34
language-modelling-on-wikitext-2	GPT-2 (small)	Number of params: 117M Test perplexity: 29.41
question-answering-on-fever	Zero-shot	EM: 50
question-answering-on-webquestions	Zero-shot	EM: 43
response-generation-on-simmc2-0	GPT-2	BLEU: 19.2
sentiment-analysis-on-imdb	GPT-2 Finetuned	Accuracy: 92.36
text-generation-on-openwebtext	GPT2-124M	eval_loss: 3.12

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette