HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 22 أيام

المحور R: إلى أي مدى يمكن لنموذج التفكير الكبير الخاص بك أن يمتد من حيث العمق والاتساع؟

Yi Lu Jianing Wang Linsen Guo Wei He Hongyin Tang Tao Gui Xuanjing Huang Xuezhi Cao Wei Wang Xunliang Cai

المحور R: إلى أي مدى يمكن لنموذج التفكير الكبير الخاص بك أن يمتد من حيث العمق والاتساع؟

الملخص

أظهرت الاتجاهات الحديثة في التوسع وقت الاختبار للنماذج الاستدلالية (مثل OpenAI o1 وDeepSeek-R1) تحسّنًا ملحوظًا بفضل استخدام سلسلة التفكير الطويلة (Chain-of-Thought - CoT). ومع ذلك، تتركز المعايير الحالية بشكل رئيسي على المهام الفورية ذات البُعد الواحد، مما يجعلها غير كافية لتقييم قدرة النماذج على فهم واستجابة السيناريوهات المعقدة ذات البُعد الطويل. ولمعالجة هذا النقص في تقييم النماذج الكبيرة الاستدلالية (Large Reasoning Models - LRMs)، نقترح منهجية تُسمى R-HORIZON، المصممة لتحفيز سلوك الاستدلال الطويل البُعد في LRMs من خلال تكوين الاستفسارات (query composition). وباستخدام R-HORIZON، نُنشئ معيارًا لتقييم الاستدلال الطويل البُعد، يتكوّن من مهام استدلال متعددة الخطوات معقدة ومتداخلة، تمتد عبر فترات استدلال طويلة. من خلال تقييم شامل للنماذج الكبيرة الاستدلالية باستخدام معيار R-HORIZON، نلاحظ أن حتى أقوى النماذج الحالية تعاني من انخفاض كبير في الأداء. وتكشف التحليلات أن LRMs تمتلك طولًا فعّالًا محدودًا في التفكير، وتعاني من صعوبة في توزيع ميزانية التفكير بشكل مناسب بين مشكلات متعددة. وباعتراف بهذه القيود، نستخدم R-HORIZON لبناء بيانات استدلال طويلة البُعد لتدريب نماذج التعلم المعزز مع مكافآت مُثبتة (Reinforcement Learning with Verified Rewards - RLVR). مقارنةً بتدريب النماذج باستخدام بيانات ذات بُعد واحد، يُظهر التدريب باستخدام R-HORIZON تحسّنًا كبيرًا في الأداء على المهام الاستدلالية متعددة الأبعاد، كما يعزز الدقة في المهام الاستدلالية القياسية، بزيادة قدرها 7.5 نقطة في معيار AIME2024. تُبرز هذه النتائج أن R-HORIZON تمثل منهجية قابلة للتوسع، وقابلة للتحكم، وذات تكلفة منخفضة، لتعزيز وتقييم قدرات LRMs في الاستدلال الطويل البُعد.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
المحور R: إلى أي مدى يمكن لنموذج التفكير الكبير الخاص بك أن يمتد من حيث العمق والاتساع؟ | الأوراق البحثية | HyperAI