HyperAIHyperAI

Command Palette

Search for a command to run...

دراسة حالة لبرمجة تطبيق ويب باستخدام نماذج الاستدلال من OpenAI

Yi Cui

الملخص

تُقدّم هذه الورقة دراسة حالة حول مهام البرمجة التي نفذها أحدث نماذج الاستدلال من OpenAI، وهي o1-preview و o1-mini، مقارنةً بنماذج رائدة أخرى. تُظهر نماذج o1 نتائج من الدرجة المتفوقة (SOTA) في WebApp1K، وهي معيار تقييم مخصص لمهمة واحدة. ولتحقيق ذلك، نقدّم WebApp1K-Duo، وهو معيار تقييم أكثر صعوبة، يضاعف عدد المهام وحالات الاختبار. وقد أدى هذا المعيار الجديد إلى انخفاض كبير في أداء نماذج o1، بحيث تراجعت أداؤها خلف نموذج Claude 3.5. علاوةً على ذلك، تفشل هذه النماذج بشكل متكرر عند مواجهة حالات اختبار غير تقليدية لكنها صحيحة، وهي فخّ يتجنبه أحيانًا النماذج التي لا تعتمد على الاستدلال. ونفترض أن التباين في الأداء ناتج عن فهم التعليمات. وبشكل خاص، فإن آلية الاستدلال تُحسّن الأداء عندما يتم التقاط جميع التوقعات، في حين تُفاقم الأخطاء عندما تُهمل توقعات رئيسية، وقد تتأثر هذه الحالة بطول المدخلات. وبناءً على ذلك، نحن نرى أن نجاح نماذج الاستدلال في مهام البرمجة يعتمد على وجود نموذج أساسي متميز وتدريب مُخصص (SFT) يضمن الالتزام الدقيق بالتعليمات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp