AgentCoder: توليد الشفرة القائمة على الوكالات المتعددة مع الاختبار والتحسين التكراري

أدى التقدم في معالجة اللغة الطبيعية (NLP) إلى دفع قوة كبيرة بفضل تطوير نماذج اللغة الكبيرة المستندة إلى المُحَوِّل (Transformer-based Large Language Models - LLMs). وقد ثار هذا النوع من النماذج بشكل جذري في مهام معالجة اللغة الطبيعية، وخاصة في إنشاء الشيفرة البرمجية، حيث ساهم في تمكين المطورين من إنشاء البرامج بكفاءة أعلى. وعلى الرغم من التطورات الكبيرة التي شهدها هذا المجال، تظل التحديات قائمة في تحقيق التوازن بين إنشاء قطع الشيفرة وتطوير حالات الاختبار الفعالة وتنفيذها. ولحل هذه المشكلات، يقدّم هذا البحث حلًا جديدًا يُسمى "توليد الشيفرة بالمساعد متعدد الوكالات" (AgentCoder)، وهو إطار متعدد الوكالات يضم وكالات متخصصة: وكالة المبرمج، ووكالة مصمم الاختبارات، ووكالة تنفيذ الاختبارات. أثناء عملية البرمجة، سيُركّز وكيل المبرمج على إنشاء الشيفرة وتحسينها بناءً على التغذية الراجعة التي يُرسلها وكيل تنفيذ الاختبارات. في الوقت نفسه، سيُنشئ وكيل مصمم الاختبارات حالات اختبار للشيفرة المولّدة، بينما سيقوم وكيل تنفيذ الاختبارات بتشغيل الشيفرة باستخدام هذه الحالات وإرسال التغذية الراجعة إلى وكيل المبرمج. يضمن هذا النظام التعاوني إنتاج شفرة قوية وموثوقة، ويتجاوز القيود التي تواجه النماذج الأحادية الوكالة والأساليب التقليدية. وقد أظهرت تجاربنا الواسعة على 9 نماذج لتوليد الشيفرة و12 أسلوبًا للتحسين أداءً متفوقًا لـ AgentCoder مقارنةً بالنماذج الحالية لتوليد الشيفرة وأساليب هندسة الإرشادات (Prompt Engineering) عبر مجموعة متنوعة من المعايير. على سبيل المثال، حقق AgentCoder (GPT-4) نسب نجاح قدرها 96.3% و91.8% في معياري HumanEval وMBPP على مستوى pass@1، مع تكلفة إجمالية في عدد الرموز (token overhead) قدرها 56.9K و66.3K على التوالي، بينما تحققت نسب نجاح قدرها 90.2% و78.9% فقط باستخدام أحدث النماذج، مع تكلفة إجمالية في عدد الرموز تبلغ 138.2K و206.5K على التوالي.