Command Palette
Search for a command to run...

الملخص
تم تدريب النماذج اللغوية الكبيرة الحديثة للتفكير بشكل رئيسي من خلال إنتاج النصوص الصريحة، مثل سلسلة التفكير (CoT)، والتي تؤجل عملية التفكير إلى مرحلة ما بعد التدريب، مما يؤدي إلى استغلال غير كافٍ لبيانات التدريب المسبق. نقدّم ونُطلق مفتوحًا نموذج "أورو"، المستوحى من كائن "أوروبوروس" التكراري، وهو عائلة من النماذج اللغوية المُعدّة مسبقًا ذات دوائر مغلقة (LoopLM)، والتي تُدمج عملية التفكير مباشرةً في مرحلة التدريب المسبق من خلال: (أ) الحساب التكراري في الفضاء المخفي، (ب) دالة هدف مُنظّمة بالانتروبيا لتحديد عمق التعلم، و(ج) التوسع ليشمل 7.7 تريليون رمز. تُظهر نماذج أورو 1.4B و2.6B أداءً متفوقًا، وتماثل نتائج النماذج الحديثة (SOTA) ذات 12B من النماذج الكبيرة في مجموعة واسعة من المعايير. من خلال تجارب مُحكَمة، نُظهر أن هذا التفوق لا ينبع من قدرة معرفية أكبر، بل من قدرة متفوّقة على معالجة وتنظيم المعرفة. كما نُبيّن أن نموذج LoopLM يُنتج آثار تفكير (reasoning traces) أكثر انسجامًا مع النتائج النهائية مقارنةً بالـ CoT الصريحة. نأمل أن تُظهر نتائجنا الإمكانات الكامنة لنموذج LoopLM كاتجاه جديد للتوسع في العصر المُتَّسم بالتفكير. يمكن الاطلاع على نموذجنا من خلال: http://ouro-llm.github.io.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.