HyperAIHyperAI
منذ 13 أيام

تحديات استخراج المشكلة وترميزها

Patrick Haller, Jonas Golde, Alan Akbik
تحديات استخراج المشكلة وترميزها
الملخص

أظهرت التطورات الحديثة في النماذج اللغوية الكبيرة (LLMs) قدراتها الاستثنائية في مجموعة متنوعة من المهام، مثل إنشاء الشفرات البرمجية، وحل المشكلات، والاستدلال. تقيّم المعايير الحالية المهام بشكل منفصل، لكن مدى قدرة النماذج اللغوية الكبيرة على فهم المهام المكتوبة على شكل نصوص أدبية، وتحديد المشكلات الكامنة وراءها، ثم إنتاج حلول برمجية مناسبة لا يزال غير مستكشف. لسد هذه الفجوة، نقدّم PECC، وهي معيار جديد مستمد من تحديات Advent Of Code (AoC) وProject Euler، يحتوي على 2396 مشكلة. على عكس المعايير التقليدية، يتطلب PECC من النماذج اللغوية الكبيرة تفسير المشكلات المضمنة في السرد، واستخراج المتطلبات، وإنتاج شفرات قابلة للتنفيذ. يتميّز هذا المجموعة بتعقيد إضافي ناتج عن استخدام التوجيهات الطبيعية في التقييمات القائمة على الدردشة، مما يحاكي التباينات والغموض في التعليمات الواقعية. أظهرت النتائج تفاوتًا في أداء النماذج بين المشكلات السردية والمحايدة، مع صعوبات ملحوظة في مجموعة Project Euler الرياضية، حيث نجح نموذج GPT-3.5-Turbo في حل 50% من تحديات AoC فقط، بينما نجح في حل 8% فقط من المشكلات الرياضية في Project Euler. من خلال استكشاف حدود قدرات النماذج اللغوية الكبيرة، يوفر معيارنا إطارًا لتتبع وتقييم التقدم المستقبلي لهذه النماذج كحلّالات مشكلات عالمية.

تحديات استخراج المشكلة وترميزها | أحدث الأوراق البحثية | HyperAI