الملخص

التطورات السريعة في نماذج اللغات الكبيرة (LLMs) لديها القدرة على المساعدة في التقدم العلمي. من بين القدرات الحرجة لتحقيق هذا الهدف، يأتي القدرة على إعادة إنتاج الأعمال القائمة. لتقدير قدرة الوكلاء الذكية على إعادة إنتاج النتائج في مجال بحثي نشط، نقدم معيار سرعة التشغيل الآلي لنماذج اللغات الكبيرة (Automated LLM Speedrunning Benchmark)، مستفيدين من المساهمات التي قدمتها المجتمع البحثي في سباق NanoGPT، وهو مسابقة تهدف إلى تدريب نموذج GPT-2 في أقصر وقت ممكن.يُوفر كل من الـ 19 مهمة في سباق السرعة للوكلاء النص البرمجي للسجلات السابقة، وقد يتم ربطه بشكل اختياري بأحد ثلاثة أنماط تلميح، تتراوح من الرموز الكاذبة (pseudocode) إلى وصف يشبه الأوراق العلمية للتحسينات الجديدة في السجلات. تم تصميم السجلات لتكون سريعة التنفيذ، وتشمل تحسينات سباق السرعة تغييرات متنوعة على مستوى الشفرة، تتراوح من التطورات الخوارزمية عالية المستوى إلى التحسينات المرتبطة بالأجهزة. هذه الميزات تجعل المعيار متاحًا وواقعيًا للمشكلة الحدودية المتمثلة في تحسين تدريب نماذج اللغات الكبيرة (LLMs). وجدنا أن النماذج الحديثة للتفكير المنطقي (reasoning LLMs) مع الهياكل الأولية المتقدمة (SoTA scaffolds) تعاني من صعوبات في إعادة تنفيذ الابتكارات المعروفة مسبقًا في معيارنا، حتى عند تقديم تلميحات مفصلة. وبالتالي，则我们的基准提供了一个简单且未饱和的度量方法，用于评估大型语言模型自动化科学再现的能力，这是自主研究代理所需的一项必要（但非充分）技能。请注意，最后一句中的“则”字在阿拉伯语中没有直接对应的词语，因此在翻译时进行了省略以保持句子的流畅性和正式性。以下是修正后的最后一句：لذلك，则我们的基准提供了一个简单且未饱和的度量方法，用于评估大型语言模型自动化科学再现的能力，这是自主研究代理所需的一项必要（但非充分）技能。再次修正后：لذلك، فإن معيارنا يوفر طريقة قياس بسيطة وغير مشبعه لقدرة نماذج اللغات الكبيرة على تحقيق التكرار العلمي بشكل آلي، وهي مهارة ضرورية (لكن غير كافية) لوكيل البحث المستقل.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

القياس القياسي الآلي لسرعة تشغيل نماذج اللغة العميقة: إعادة إنتاج تحسينات NanoGPT

Bingchen Zhao Despoina Magka Minqi Jiang Xian Li Roberta Raileanu Tatiana Shavrina Jean-Christophe Gagnon-Audet Kelvin Niu Shagun Sodhani Michael Shvartsman13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

القياس القياسي الآلي لسرعة تشغيل نماذج اللغة العميقة: إعادة إنتاج تحسينات NanoGPT

Bingchen Zhao Despoina Magka Minqi Jiang Xian Li Roberta Raileanu Tatiana Shavrina Jean-Christophe Gagnon-Audet Kelvin Niu Shagun Sodhani Michael Shvartsman13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

القياس القياسي الآلي لسرعة تشغيل نماذج اللغة العميقة: إعادة إنتاج تحسينات NanoGPT

Bingchen Zhao Despoina Magka Minqi Jiang Xian Li Roberta Raileanu Tatiana Shavrina Jean-Christophe Gagnon-Audet Kelvin Niu Shagun Sodhani Michael Shvartsman13 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bingchen Zhao Despoina Magka Minqi Jiang Xian Li Roberta Raileanu Tatiana Shavrina Jean-Christophe Gagnon-Audet Kelvin Niu Shagun Sodhani Michael Shvartsman

Bingchen Zhao Despoina Magka Minqi Jiang Xian Li Roberta Raileanu Tatiana Shavrina Jean-Christophe Gagnon-Audet Kelvin Niu Shagun Sodhani Michael Shvartsman

Bingchen Zhao Despoina Magka Minqi Jiang Xian Li Roberta Raileanu Tatiana Shavrina Jean-Christophe Gagnon-Audet Kelvin Niu Shagun Sodhani Michael Shvartsman