إعادة استخدام بيانات التدريب المسبق في وقت الاختبار هي مضاعف للحساب
Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

الملخص
تتعلم النماذج اللغوية الكبيرة من مجموعات البيانات الكبيرة التي تم تدريبها مسبقًا، مما يمنحها القدرة على حل طيف متزايد من المهام؛ ومع ذلك، رغم الجهود المبذولة من قبل الباحثين لتحسين هذه المجموعات، تظل هناك مجهودات محدودة لفهم مدى كفاءة عملية التدريب المسبق في استخلاص الأفكار والمعارف من البيانات. في هذه الدراسة، نستخدم تقنية التوليد المدعوم بالاسترجاع مع استخدام الحوسبة أثناء الاختبار كوسيلة لقياس مدى الكمية التي تُترك من القيمة المعرفية في البيانات نتيجة عملية التدريب المسبق، وكيف تتغير هذه الكمية مع التوسع في الحجم. نُظهر أن التدريب المسبق ثم الاسترجاع من مجموعات بيانات قياسية ومفتوحة المصدر بشكل كبير يؤدي إلى تحسن كبير في الدقة على مجموعتي بيانات MMLU وMath-500 وSimpleQA، ويظل هذا التحسن قائماً حتى بعد عملية تنقية البيانات (decontamination). وبالنسبة لـ MMLU، نلاحظ أن الاسترجاع يعمل كمضاعف حسابي يقارب 5 أضعاف مقارنة بالتدريب المسبق وحده. كما نُظهر أن هذه النتائج يمكن تحسينها أكثر من خلال استغلال موارد حوسبة إضافية أثناء الاختبار لتحليل السياق المسترجع، ما يُسهم في تحقيق تحسن قدره 10 نقاط مئوية على MMLU بالنسبة للنموذج العام LLaMA 3.1 بحجم 8B. وبشكل عام، تشير نتائجنا إلى أن أساليب التدريب المسبق الحالية لا تستغل بالكامل المعلومات المتوفرة في مجموعات البيانات المسبقة التدريب الحالية، ما يترك مجالًا واسعًا للتحسن.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.