Command Palette
Search for a command to run...
Siyuan Wang Gaokai Zhang Li Lyna Zhang Ning Shang Fan Yang Dongyao Chen Mao Yang

الملخص
الاستدلال على السياقات الطويلة يُعدّ أمراً ضرورياً لنموذجات اللغة الكبيرة. في حين أن التعلّم بالتحفيز (RL) يُحسّن الاستدلال في السياقات القصيرة من خلال توليد لحظات "أها" في سلسلة التفكير، تظلّ الأنماط المتقدمة للتفكير الضرورية للاستدلال في السياقات الطويلة مُستَكشَفة جزئياً، كما أن بيانات التعلّم بالتحفيز ذات الصعوبة العالية نادرة. في هذا البحث، نقدّم LoongRL، وهي طريقة قائمة على البيانات للتعلّم بالتحفيز مُخصّصة للاستدلال الطويل المُتَقَدِّم في السياقات. وتمثّل KeyChain، التي تُعدّ حجر الزاوية في LoongRL، منهجية توليد مهام تُحوّل مهام الاستجابة متعددة المراحل القصيرة إلى مهام طويلة السياق ذات صعوبة عالية، من خلال إدراج سلاسل UUID (معرّفات فريدة) تُخفي السؤال الحقيقي ضمن مجموعات كبيرة من الوثائق المشتتة. ويتطلب حل هذه المهام من النموذج تتبع السلسلة الصحيحة خطوة بخطوة، وتحديد السؤال الحقيقي، واسترجاع الحقائق ذات الصلة، ثم الاستدلال عليها للإجابة بشكل دقيق. وعند تدريب النموذج باستخدام بيانات KeyChain، تظهر نمطًا مُتَوَلِّدًا من التخطيط واسترجاع المعلومات والتأمل والتدقيق مرة أخرى، يُعدّ نمطًا مُتَوَسِّعًا بدرجة كبيرة خارج حدود طول التدريب. وتمكّن النماذج المدربة على 16K من حل مهام بطول 128K دون تكاليف مفرطة لعمليات التدريب الكاملة. على نماذج Qwen2.5-7B و14B، تُحسّن LoongRL دقة الاستدلال الطويل في المهام متعددة المراحل بشكل كبير، بزيادة مطلقة تصل إلى 23.5% و21.1% على التوالي. ويُحقّق النموذج LoongRL-14B درجة تصل إلى 74.2، مُنافسًا نماذج متقدمة أضخم حجماً مثل o3-mini (74.5) وDeepSeek-R1 (74.9). كما يُحسّن LoongRL أداء الاسترجاع في السياقات الطويلة، ويُجتاز جميع اختبارات التحمّل (stress tests) من نوع "الإبرة في كومة قش" بطول 128K، ويُبقي على قدرات النموذج في الاستدلال في السياقات القصيرة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.