HyperAIHyperAI
منذ 13 أيام

دراسة حالة لبرمجة تطبيق ويب باستخدام نماذج الاستدلال من OpenAI

Yi Cui
دراسة حالة لبرمجة تطبيق ويب باستخدام نماذج الاستدلال من OpenAI
الملخص

تُقدّم هذه الورقة دراسة حالة حول مهام البرمجة التي نفذها أحدث نماذج الاستدلال من OpenAI، وهي o1-preview و o1-mini، مقارنةً بنماذج رائدة أخرى. تُظهر نماذج o1 نتائج من الدرجة المتفوقة (SOTA) في WebApp1K، وهي معيار تقييم مخصص لمهمة واحدة. ولتحقيق ذلك، نقدّم WebApp1K-Duo، وهو معيار تقييم أكثر صعوبة، يضاعف عدد المهام وحالات الاختبار. وقد أدى هذا المعيار الجديد إلى انخفاض كبير في أداء نماذج o1، بحيث تراجعت أداؤها خلف نموذج Claude 3.5. علاوةً على ذلك، تفشل هذه النماذج بشكل متكرر عند مواجهة حالات اختبار غير تقليدية لكنها صحيحة، وهي فخّ يتجنبه أحيانًا النماذج التي لا تعتمد على الاستدلال. ونفترض أن التباين في الأداء ناتج عن فهم التعليمات. وبشكل خاص، فإن آلية الاستدلال تُحسّن الأداء عندما يتم التقاط جميع التوقعات، في حين تُفاقم الأخطاء عندما تُهمل توقعات رئيسية، وقد تتأثر هذه الحالة بطول المدخلات. وبناءً على ذلك، نحن نرى أن نجاح نماذج الاستدلال في مهام البرمجة يعتمد على وجود نموذج أساسي متميز وتدريب مُخصص (SFT) يضمن الالتزام الدقيق بالتعليمات.

دراسة حالة لبرمجة تطبيق ويب باستخدام نماذج الاستدلال من OpenAI | أحدث الأوراق البحثية | HyperAI