منذ 5 أشهر

الملخص

أظهرت التطورات الحديثة في نماذج اللغة الكبيرة (LLMs) أن قدرات التفكير فيها يمكن تحسينها بشكل ملحوظ من خلال التعلم المعزز مع مكافأة قابلة للتحقق (RLVR)، خاصة في المجالات مثل الرياضيات والبرمجة، حيث يمكن تقييم الصواب الصحيح تلقائيًا. ومع ذلك، لا يزال تمديد هذا النجاح إلى مجالات تفكيرية أخرى يواجه صعوبات كبيرة نظرًا لقلة وجود مجموعات بيانات عالية الجودة القابلة للتحقق، وارتفاع تكلفة الإشراف البشري. في هذا العمل، نقدم مشروع Loong: إطار مفتوح المصدر لتكوين البيانات الاصطناعية القابلة للتوسع والتحقق منها عبر مجموعة متنوعة من المجالات التي تتطلب تفكيرًا عميقًا. يتكون هذا الإطار من مكوّنين رئيسيين: (1) LoongBench، وهو مجموعة بيانات أولية مختارة تحتوي على 8,729 مثالًا تم التحقق منها من قبل البشر في 12 مجالًا (مثل الرياضيات المتقدمة، والكيمياء، والمنطق)، مع ربط كل مثال برمز قابل للتنفيذ وبيانات وصفية غنية؛ و(2) LoongEnv، وهو بيئة توليد بيانات اصطناعية قابلة للتعديل، تدعم استراتيجيات تنشيط متعددة لإنتاج ثلاثيات جديدة من الأسئلة والإجابات والرموز. يشكل هذان المكوّنان معًا حلقة تفاعل بين وكيل وبيئة، تتيح التعلم المعزز، حيث يُكافأ الوكيل القائم على نموذج لغة كبير (LLM) على إنتاج حلول تسلسل التفكير (Chain-of-Thought) تتماشى مع النتائج الناتجة عن تنفيذ الرموز. من الناحية التجريبية، قمنا بقياس أداء LoongBench على مجموعة واسعة من نماذج LLM مفتوحة المصدر وخصوصية لتقييم مدى التغطية المجالية وكشف نقاط الضعف في الأداء. بالإضافة إلى ذلك، أجرينا تحليلًا شاملاً للبيانات الاصطناعية التي تم إنشاؤها بواسطة LoongEnv، مع دراسة جوانب مثل الدقة، والصعوبة، والتنوع.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

لوونغ: توليد سلسلة طويلة من التفكير على نطاق واسع من خلال المُحقِّقين

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

لوونغ: توليد سلسلة طويلة من التفكير على نطاق واسع من خلال المُحقِّقين

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

لوونغ: توليد سلسلة طويلة من التفكير على نطاق واسع من خلال المُحقِّقين

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters