الاضطراب: اختبار نموذج اللغة الكبير المُعدّل بالتعليمات بشكل منهجي وآلي للبرمجة

نقدم طريقة لتقييم منهجي للدقة والصلابة في نماذج اللغة الكبيرة المُعدّلة وفقًا للتعليمات (LLMs) الخاصة بإنشاء الشفرات البرمجية، وذلك من خلال معيار جديد يُسمّى "تيربيولينس" (Turbulence). يتكون معيار تيربيولينس من مجموعة كبيرة من نماذج الأسئلة باللغة الطبيعية، حيث تمثل كل نموذج مشكلة برمجية، وتم تعميمها بحيث يمكن طرحها بأشكال متعددة جدًا. لكل نموذج سؤال يُرفق به "مُفترَض اختبار" (test oracle) يُقيّم ما إذا كانت الشفرة الناتجة من النموذج البرمجية صحيحة أم لا. وبهذا، من خلال نموذج سؤال واحد، يمكن طرح مجموعة من الأسئلة البرمجية المتشابهة جدًا (يُشار إليها بـ "جوار" أو neighborhood) على النموذج، وتقييم صحة النتائج المُستخلصة لكل سؤال. وهذا يمكّن من تحديد الفجوات في قدرات النموذج على إنشاء الشفرات، بما في ذلك الظواهر الاستثنائية (anomalies) التي يحل فيها النموذج بشكل صحيح معظم الأسئلة في الجوار، لكنه يفشل في حالات محددة من التهيئة المُعطاة للبارامترات. نُقدّم تجارب على خمسة نماذج لغة كبرى من شركات OpenAI وCohere وMeta، وكل نموذج عند إعدادين مختلفين للحرارة (temperature). تُظهر نتائجنا أن معيار تيربيولينس، بشكل عام، قادر على كشف الفجوات في قدرات التفكير لدى النماذج اللغوية الكبيرة. ويتعدى هذا مجرد الإشارة إلى أن النماذج تُنتج أحيانًا شفرات غير صحيحة (وهو أمر لا يُفاجئ)، بل يُعدّ أداة فعّالة في الكشف عن مشكلات الصلابة (robustness)، من خلال تحديد الحالات التي تُظهر فيها النماذج قدرة على حل بعض المشكلات في جوار معين، لكنها لا تتمكّن من التعميم لحل جميع المشكلات فيه. ونقدّم بيانات وأمثلة تُضيء على أنواع الأخطاء التي ترتكبها النماذج عندما تُنتج إجابات غير صحيحة.