HyperAI
منذ 16 أيام

القياس القياسي الآلي لسرعة تشغيل نماذج اللغة العميقة: إعادة إنتاج تحسينات NanoGPT

Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach
القياس القياسي الآلي لسرعة تشغيل نماذج اللغة العميقة: إعادة إنتاج تحسينات NanoGPT
الملخص

التطورات السريعة في نماذج اللغات الكبيرة (LLMs) لديها القدرة على المساعدة في التقدم العلمي. من بين القدرات الحرجة لتحقيق هذا الهدف، يأتي القدرة على إعادة إنتاج الأعمال القائمة. لتقدير قدرة الوكلاء الذكية على إعادة إنتاج النتائج في مجال بحثي نشط، نقدم معيار سرعة التشغيل الآلي لنماذج اللغات الكبيرة (Automated LLM Speedrunning Benchmark)، مستفيدين من المساهمات التي قدمتها المجتمع البحثي في سباق NanoGPT، وهو مسابقة تهدف إلى تدريب نموذج GPT-2 في أقصر وقت ممكن.يُوفر كل من الـ 19 مهمة في سباق السرعة للوكلاء النص البرمجي للسجلات السابقة، وقد يتم ربطه بشكل اختياري بأحد ثلاثة أنماط تلميح، تتراوح من الرموز الكاذبة (pseudocode) إلى وصف يشبه الأوراق العلمية للتحسينات الجديدة في السجلات. تم تصميم السجلات لتكون سريعة التنفيذ، وتشمل تحسينات سباق السرعة تغييرات متنوعة على مستوى الشفرة، تتراوح من التطورات الخوارزمية عالية المستوى إلى التحسينات المرتبطة بالأجهزة. هذه الميزات تجعل المعيار متاحًا وواقعيًا للمشكلة الحدودية المتمثلة في تحسين تدريب نماذج اللغات الكبيرة (LLMs). وجدنا أن النماذج الحديثة للتفكير المنطقي (reasoning LLMs) مع الهياكل الأولية المتقدمة (SoTA scaffolds) تعاني من صعوبات في إعادة تنفيذ الابتكارات المعروفة مسبقًا في معيارنا، حتى عند تقديم تلميحات مفصلة. وبالتالي,则我们的基准提供了一个简单且未饱和的度量方法,用于评估大型语言模型自动化科学再现的能力,这是自主研究代理所需的一项必要(但非充分)技能。请注意,最后一句中的“则”字在阿拉伯语中没有直接对应的词语,因此在翻译时进行了省略以保持句子的流畅性和正式性。以下是修正后的最后一句:لذلك,则我们的基准提供了一个简单且未饱和的度量方法,用于评估大型语言模型自动化科学再现的能力,这是自主研究代理所需的一项必要(但非充分)技能。再次修正后:لذلك، فإن معيارنا يوفر طريقة قياس بسيطة وغير مشبعه لقدرة نماذج اللغات الكبيرة على تحقيق التكرار العلمي بشكل آلي، وهي مهارة ضرورية (لكن غير كافية) لوكيل البحث المستقل.