HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

إعادة استخدام بيانات التدريب المسبق في وقت الاختبار هي مضاعف للحساب

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

إعادة استخدام بيانات التدريب المسبق في وقت الاختبار هي مضاعف للحساب

الملخص

تتعلم النماذج اللغوية الكبيرة من مجموعات البيانات الكبيرة التي تم تدريبها مسبقًا، مما يمنحها القدرة على حل طيف متزايد من المهام؛ ومع ذلك، رغم الجهود المبذولة من قبل الباحثين لتحسين هذه المجموعات، تظل هناك مجهودات محدودة لفهم مدى كفاءة عملية التدريب المسبق في استخلاص الأفكار والمعارف من البيانات. في هذه الدراسة، نستخدم تقنية التوليد المدعوم بالاسترجاع مع استخدام الحوسبة أثناء الاختبار كوسيلة لقياس مدى الكمية التي تُترك من القيمة المعرفية في البيانات نتيجة عملية التدريب المسبق، وكيف تتغير هذه الكمية مع التوسع في الحجم. نُظهر أن التدريب المسبق ثم الاسترجاع من مجموعات بيانات قياسية ومفتوحة المصدر بشكل كبير يؤدي إلى تحسن كبير في الدقة على مجموعتي بيانات MMLU وMath-500 وSimpleQA، ويظل هذا التحسن قائماً حتى بعد عملية تنقية البيانات (decontamination). وبالنسبة لـ MMLU، نلاحظ أن الاسترجاع يعمل كمضاعف حسابي يقارب 5 أضعاف مقارنة بالتدريب المسبق وحده. كما نُظهر أن هذه النتائج يمكن تحسينها أكثر من خلال استغلال موارد حوسبة إضافية أثناء الاختبار لتحليل السياق المسترجع، ما يُسهم في تحقيق تحسن قدره 10 نقاط مئوية على MMLU بالنسبة للنموذج العام LLaMA 3.1 بحجم 8B. وبشكل عام، تشير نتائجنا إلى أن أساليب التدريب المسبق الحالية لا تستغل بالكامل المعلومات المتوفرة في مجموعات البيانات المسبقة التدريب الحالية، ما يترك مجالًا واسعًا للتحسن.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة استخدام بيانات التدريب المسبق في وقت الاختبار هي مضاعف للحساب | الأوراق البحثية | HyperAI