HyperAIHyperAI
منذ 3 أشهر

تدريب وقت الاختبار على الجيران الأقرب للنماذج اللغوية الكبيرة

Moritz Hardt, Yu Sun
تدريب وقت الاختبار على الجيران الأقرب للنماذج اللغوية الكبيرة
الملخص

تُعدّ العديد من الجهود الحديثة التي تهدف إلى تعزيز نماذج اللغة من خلال الاسترجاع، من خلال إضافة البيانات المسترجعة إلى السياق المدخل. ولتحقيق نجاح هذه الطريقة، يجب إضافة البيانات المسترجعة في كل من مرحلة التدريب ومرحلة الاختبار. علاوةً على ذلك، وبما أن طول المدخل يزداد بشكل خطي مع حجم البيانات المسترجعة، فإن التكاليف الحسابية والذاكرة تزداد تربيعياً بالنسبة للنماذج الحديثة من نوع Transformers. لتجنب هذه التعقيدات، نقوم ببساطة بتحسين النموذج على البيانات المسترجعة في وقت الاختبار، باستخدام إعدادات التدريب القياسية للنموذج. نقوم ببناء فهرس موزع على نطاق واسع يستند إلى تمثيلات النصوص من مجموعة بيانات Pile. بالنسبة لكل مدخل اختبار، يسترجع نظامنا الجيران المرتبطين به، ثم يُعدّل النموذج على نصوص هؤلاء الجيران. وفاجأنا أن استرجاع وتحسين النموذج على ما لا يقل عن 20 جاراً، لكل جارٍ في تكرار تدرج واحد فقط، يُحدث تحسناً كبيراً في الأداء عبر أكثر من 20 مهمة لنمذجة اللغة في مجموعة بيانات Pile. على سبيل المثال، يقلل التدريب في وقت الاختبار باستخدام الجيران الأقرب بشكل كبير من الفجوة في الأداء بين نموذج GPT-2 صغير ونموذج GPT-Neo الأكبر بعشر مرات. ومع ذلك، فإن جودة وحجم الفهرس الكافي ضروريان. تُشكّل هذه الدراسة أول معيار أولي للتدريب في وقت الاختبار لتمثيل اللغة.