HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

لوونغ: توليد سلسلة طويلة من التفكير على نطاق واسع من خلال المُحقِّقين

Xingyue Huang Rishabh Gregor Franke Ziyi Yang Jiamu Bai Weijie Bai Jinhe Bi et al

لوونغ: توليد سلسلة طويلة من التفكير على نطاق واسع من خلال المُحقِّقين

الملخص

أظهرت التطورات الحديثة في نماذج اللغة الكبيرة (LLMs) أن قدرات التفكير فيها يمكن تحسينها بشكل ملحوظ من خلال التعلم المعزز مع مكافأة قابلة للتحقق (RLVR)، خاصة في المجالات مثل الرياضيات والبرمجة، حيث يمكن تقييم الصواب الصحيح تلقائيًا. ومع ذلك، لا يزال تمديد هذا النجاح إلى مجالات تفكيرية أخرى يواجه صعوبات كبيرة نظرًا لقلة وجود مجموعات بيانات عالية الجودة القابلة للتحقق، وارتفاع تكلفة الإشراف البشري. في هذا العمل، نقدم مشروع Loong: إطار مفتوح المصدر لتكوين البيانات الاصطناعية القابلة للتوسع والتحقق منها عبر مجموعة متنوعة من المجالات التي تتطلب تفكيرًا عميقًا. يتكون هذا الإطار من مكوّنين رئيسيين: (1) LoongBench، وهو مجموعة بيانات أولية مختارة تحتوي على 8,729 مثالًا تم التحقق منها من قبل البشر في 12 مجالًا (مثل الرياضيات المتقدمة، والكيمياء، والمنطق)، مع ربط كل مثال برمز قابل للتنفيذ وبيانات وصفية غنية؛ و(2) LoongEnv، وهو بيئة توليد بيانات اصطناعية قابلة للتعديل، تدعم استراتيجيات تنشيط متعددة لإنتاج ثلاثيات جديدة من الأسئلة والإجابات والرموز. يشكل هذان المكوّنان معًا حلقة تفاعل بين وكيل وبيئة، تتيح التعلم المعزز، حيث يُكافأ الوكيل القائم على نموذج لغة كبير (LLM) على إنتاج حلول تسلسل التفكير (Chain-of-Thought) تتماشى مع النتائج الناتجة عن تنفيذ الرموز. من الناحية التجريبية، قمنا بقياس أداء LoongBench على مجموعة واسعة من نماذج LLM مفتوحة المصدر وخصوصية لتقييم مدى التغطية المجالية وكشف نقاط الضعف في الأداء. بالإضافة إلى ذلك، أجرينا تحليلًا شاملاً للبيانات الاصطناعية التي تم إنشاؤها بواسطة LoongEnv، مع دراسة جوانب مثل الدقة، والصعوبة، والتنوع.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
لوونغ: توليد سلسلة طويلة من التفكير على نطاق واسع من خلال المُحقِّقين | الأوراق البحثية | HyperAI