HyperAIHyperAI

Command Palette

Search for a command to run...

تدريب وقت الاختبار على الجيران الأقرب للنماذج اللغوية الكبيرة

Moritz Hardt Yu Sun

الملخص

تُعدّ العديد من الجهود الحديثة التي تهدف إلى تعزيز نماذج اللغة من خلال الاسترجاع، من خلال إضافة البيانات المسترجعة إلى السياق المدخل. ولتحقيق نجاح هذه الطريقة، يجب إضافة البيانات المسترجعة في كل من مرحلة التدريب ومرحلة الاختبار. علاوةً على ذلك، وبما أن طول المدخل يزداد بشكل خطي مع حجم البيانات المسترجعة، فإن التكاليف الحسابية والذاكرة تزداد تربيعياً بالنسبة للنماذج الحديثة من نوع Transformers. لتجنب هذه التعقيدات، نقوم ببساطة بتحسين النموذج على البيانات المسترجعة في وقت الاختبار، باستخدام إعدادات التدريب القياسية للنموذج. نقوم ببناء فهرس موزع على نطاق واسع يستند إلى تمثيلات النصوص من مجموعة بيانات Pile. بالنسبة لكل مدخل اختبار، يسترجع نظامنا الجيران المرتبطين به، ثم يُعدّل النموذج على نصوص هؤلاء الجيران. وفاجأنا أن استرجاع وتحسين النموذج على ما لا يقل عن 20 جاراً، لكل جارٍ في تكرار تدرج واحد فقط، يُحدث تحسناً كبيراً في الأداء عبر أكثر من 20 مهمة لنمذجة اللغة في مجموعة بيانات Pile. على سبيل المثال، يقلل التدريب في وقت الاختبار باستخدام الجيران الأقرب بشكل كبير من الفجوة في الأداء بين نموذج GPT-2 صغير ونموذج GPT-Neo الأكبر بعشر مرات. ومع ذلك، فإن جودة وحجم الفهرس الكافي ضروريان. تُشكّل هذه الدراسة أول معيار أولي للتدريب في وقت الاختبار لتمثيل اللغة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تدريب وقت الاختبار على الجيران الأقرب للنماذج اللغوية الكبيرة | مستندات | HyperAI