منذ 6 أشهر

الملخص

تُقدّم هذه الورقة دراسة حالة حول مهام البرمجة التي نفذها أحدث نماذج الاستدلال من OpenAI، وهي o1-preview و o1-mini، مقارنةً بنماذج رائدة أخرى. تُظهر نماذج o1 نتائج من الدرجة المتفوقة (SOTA) في WebApp1K، وهي معيار تقييم مخصص لمهمة واحدة. ولتحقيق ذلك، نقدّم WebApp1K-Duo، وهو معيار تقييم أكثر صعوبة، يضاعف عدد المهام وحالات الاختبار. وقد أدى هذا المعيار الجديد إلى انخفاض كبير في أداء نماذج o1، بحيث تراجعت أداؤها خلف نموذج Claude 3.5. علاوةً على ذلك، تفشل هذه النماذج بشكل متكرر عند مواجهة حالات اختبار غير تقليدية لكنها صحيحة، وهي فخّ يتجنبه أحيانًا النماذج التي لا تعتمد على الاستدلال. ونفترض أن التباين في الأداء ناتج عن فهم التعليمات. وبشكل خاص، فإن آلية الاستدلال تُحسّن الأداء عندما يتم التقاط جميع التوقعات، في حين تُفاقم الأخطاء عندما تُهمل توقعات رئيسية، وقد تتأثر هذه الحالة بطول المدخلات. وبناءً على ذلك، نحن نرى أن نجاح نماذج الاستدلال في مهام البرمجة يعتمد على وجود نموذج أساسي متميز وتدريب مُخصص (SFT) يضمن الالتزام الدقيق بالتعليمات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار