الملخص

أظهرت الاتجاهات الحديثة في التوسع وقت الاختبار للنماذج الاستدلالية (مثل OpenAI o1 وDeepSeek-R1) تحسّنًا ملحوظًا بفضل استخدام سلسلة التفكير الطويلة (Chain-of-Thought - CoT). ومع ذلك، تتركز المعايير الحالية بشكل رئيسي على المهام الفورية ذات البُعد الواحد، مما يجعلها غير كافية لتقييم قدرة النماذج على فهم واستجابة السيناريوهات المعقدة ذات البُعد الطويل. ولمعالجة هذا النقص في تقييم النماذج الكبيرة الاستدلالية (Large Reasoning Models - LRMs)، نقترح منهجية تُسمى R-HORIZON، المصممة لتحفيز سلوك الاستدلال الطويل البُعد في LRMs من خلال تكوين الاستفسارات (query composition). وباستخدام R-HORIZON، نُنشئ معيارًا لتقييم الاستدلال الطويل البُعد، يتكوّن من مهام استدلال متعددة الخطوات معقدة ومتداخلة، تمتد عبر فترات استدلال طويلة. من خلال تقييم شامل للنماذج الكبيرة الاستدلالية باستخدام معيار R-HORIZON، نلاحظ أن حتى أقوى النماذج الحالية تعاني من انخفاض كبير في الأداء. وتكشف التحليلات أن LRMs تمتلك طولًا فعّالًا محدودًا في التفكير، وتعاني من صعوبة في توزيع ميزانية التفكير بشكل مناسب بين مشكلات متعددة. وباعتراف بهذه القيود، نستخدم R-HORIZON لبناء بيانات استدلال طويلة البُعد لتدريب نماذج التعلم المعزز مع مكافآت مُثبتة (Reinforcement Learning with Verified Rewards - RLVR). مقارنةً بتدريب النماذج باستخدام بيانات ذات بُعد واحد، يُظهر التدريب باستخدام R-HORIZON تحسّنًا كبيرًا في الأداء على المهام الاستدلالية متعددة الأبعاد، كما يعزز الدقة في المهام الاستدلالية القياسية، بزيادة قدرها 7.5 نقطة في معيار AIME2024. تُبرز هذه النتائج أن R-HORIZON تمثل منهجية قابلة للتوسع، وقابلة للتحكم، وذات تكلفة منخفضة، لتعزيز وتقييم قدرات LRMs في الاستدلال الطويل البُعد.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

المحور R: إلى أي مدى يمكن لنموذج التفكير الكبير الخاص بك أن يمتد من حيث العمق والاتساع؟

Yi Lu Jianing Wang Linsen Guo Wei He Hongyin Tang Tao Gui Xuanjing Huang Xuezhi Cao Wei Wang Xunliang Cai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المحور R: إلى أي مدى يمكن لنموذج التفكير الكبير الخاص بك أن يمتد من حيث العمق والاتساع؟

Yi Lu Jianing Wang Linsen Guo Wei He Hongyin Tang Tao Gui Xuanjing Huang Xuezhi Cao Wei Wang Xunliang Cai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

المحور R: إلى أي مدى يمكن لنموذج التفكير الكبير الخاص بك أن يمتد من حيث العمق والاتساع؟

Yi Lu Jianing Wang Linsen Guo Wei He Hongyin Tang Tao Gui Xuanjing Huang Xuezhi Cao Wei Wang Xunliang Cai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters