Command Palette
Search for a command to run...
لوونغ: توليد سلسلة طويلة من التفكير على نطاق واسع من خلال المُحقِّقين
Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

الملخص
أظهرت التطورات الحديثة في نماذج اللغة الكبيرة (LLMs) أن قدرات التفكير فيها يمكن تحسينها بشكل ملحوظ من خلال التعلم المعزز مع مكافأة قابلة للتحقق (RLVR)، خاصة في المجالات مثل الرياضيات والبرمجة، حيث يمكن تقييم الصواب الصحيح تلقائيًا. ومع ذلك، لا يزال تمديد هذا النجاح إلى مجالات تفكيرية أخرى يواجه صعوبات كبيرة نظرًا لقلة وجود مجموعات بيانات عالية الجودة القابلة للتحقق، وارتفاع تكلفة الإشراف البشري. في هذا العمل، نقدم مشروع Loong: إطار مفتوح المصدر لتكوين البيانات الاصطناعية القابلة للتوسع والتحقق منها عبر مجموعة متنوعة من المجالات التي تتطلب تفكيرًا عميقًا. يتكون هذا الإطار من مكوّنين رئيسيين: (1) LoongBench، وهو مجموعة بيانات أولية مختارة تحتوي على 8,729 مثالًا تم التحقق منها من قبل البشر في 12 مجالًا (مثل الرياضيات المتقدمة، والكيمياء، والمنطق)، مع ربط كل مثال برمز قابل للتنفيذ وبيانات وصفية غنية؛ و(2) LoongEnv، وهو بيئة توليد بيانات اصطناعية قابلة للتعديل، تدعم استراتيجيات تنشيط متعددة لإنتاج ثلاثيات جديدة من الأسئلة والإجابات والرموز. يشكل هذان المكوّنان معًا حلقة تفاعل بين وكيل وبيئة، تتيح التعلم المعزز، حيث يُكافأ الوكيل القائم على نموذج لغة كبير (LLM) على إنتاج حلول تسلسل التفكير (Chain-of-Thought) تتماشى مع النتائج الناتجة عن تنفيذ الرموز. من الناحية التجريبية، قمنا بقياس أداء LoongBench على مجموعة واسعة من نماذج LLM مفتوحة المصدر وخصوصية لتقييم مدى التغطية المجالية وكشف نقاط الضعف في الأداء. بالإضافة إلى ذلك، أجرينا تحليلًا شاملاً للبيانات الاصطناعية التي تم إنشاؤها بواسطة LoongEnv، مع دراسة جوانب مثل الدقة، والصعوبة، والتنوع.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.