CODESIM: توليد الشفرة متعدد الوكلاء وحل المشكلات من خلال التخطيط والتصحيح المدعوم بالمحاكاة

أحرزت النماذج اللغوية الكبيرة (LLMs) تقدماً كبيراً في توليد الكود وحل المشكلات. تعتمد الأساليب الحالية على مُصحّحات تكرارية تعتمد على أدوات خارجية، والتي تستخدم ملاحظات تشغيلية من المُكوّن (compiler) أو أدوات أخرى لتحسين البرامج الأولية التي تولّدها أساليب مختلفة. ومع ذلك، يعتمد أداء هذه الأساليب بشكل كبير على جودة توليد الكود الأولي، وهو ما يظل تحدياً مفتوحاً حتى الآن. في هذه الورقة، نقدّم CodeSim، إطاراً متكاملاً لتكوين الكود متعدد الوكلاء، يعالج بشكل شامل مراحل تركيب البرامج – التخطيط، والكتابة، والتصحيح – من خلال نهج يشبه الإدراك البشري. حيث يتحقق الإنسان من فهمه لأي خوارزمية من خلال المحاكاة البصرية، يتميز CodeSim بطريقة فريدة لتحقق الخطة والتصحيح الداخلي من خلال محاكاة خطوة بخطوة للإدخال والإخراج. أظهرت التجارب الواسعة على سبعة معايير صعبة لحل المشكلات التنافسية وتركيب البرامج، قدرات مميزة لـ CodeSim في توليد الكود. حقق إطارنا نتائج جديدة على مستوى الحد الأقصى (pass@1): (HumanEval 95.1%، MBPP 90.7%، APPS 22%، وCodeContests 29.1%). علاوة على ذلك، تُظهر طريقة عملنا إمكانية تحسين أكبر عند دمجها بشكل متسلسل مع مصحّحات خارجية. ولتمكين الأبحاث والتطويرات المستقبلية في هذا المجال، أطلقنا إطارنا مفتوح المصدر عبر هذا الرابط (https://kagnlp.github.io/codesim.github.io/).