Command Palette
Search for a command to run...
SWE-QA: هل يمكن نماذج اللغة الإجابة على أسئلة المستوى المستودع للرموز؟
Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

الملخص
الفهم والاستنتاج حول مخازن البرمجيات بالكامل يُعدّ من المهارات الأساسية التي تُعدّ أدوات هندسة البرمجيات الذكية بحاجة إليها. وعلى الرغم من التقدم الذي أحرزته المعايير الحالية مثل CoSQA وCodeQA، إلا أن هذه المعايير تركز بشكل كبير على قطع صغيرة من الكود ذات طبيعة مستقلة. وتفشل هذه البيئات في التقاط التعقيدات الحقيقية لمشاريع البرمجيات، حيث يُعدّ الفهم الفعّال والاستنتاج غالبًا ما يتطلب التنقل عبر عدة ملفات، وفهم البنية المعمارية للبرمجيات، وربط الإجابات بعلاقة اعتماد طويلة المدى في الكود. في هذه الورقة، نقدّم SWE-QA، وهي معيار لحل أسئلة الكود على مستوى المخزن (QA) مصمم لتمكين الأبحاث المتعلقة بنظم الإجابة الآلية على أسئلة الكود في بيئات برمجية واقعية. يحتوي SWE-QA على 576 زوجًا من الأسئلة والإجابات عالية الجودة، وتغطي مجموعة متنوعة من الفئات، منها فهم النية، والاستنتاج عبر ملفات متعددة، وتحليل الاعتماد المتعدد الخطوات. لبناء SWE-QA، قمنا أولًا بجمع 77,100 مسألة من GitHub من 11 مشروعًا شهيرًا. بناءً على تحليل الأسئلة التي تنشأ بشكل طبيعي من المطورين، والتي استُخلِصت من هذه المسائل، طوّرنا تصنيفًا ثنائي المستوى للأسئلة على مستوى المخزن، وصُمّم مجموعة من الأسئلة الأولية لكل فئة. ثم قمنا يدويًا بتحديث واعتماد الأسئلة لكل فئة، وجمعنا الإجابات المقابلة لها. كتطبيق نموذجي، طوّرنا أيضًا SWE-QA-Agent، وهي إطار عمل قائم على وكالات الذكاء الاصطناعي (LLM agents) التي تُجري استنتاجات وتنفذ إجراءات تلقائيًا للعثور على الإجابات. قمنا بتقييم ستة نماذج ذكاء اصطناعي متقدمة (LLMs) على SWE-QA باستخدام استراتيجيات مختلفة لتوسيع السياق. أظهرت النتائج التجريبية إمكانات كبيرة للنماذج، خاصةً إطارنا SWE-QA-Agent، في معالجة مهام الإجابة على الأسئلة على مستوى المخزن، مع تسليط الضوء على التحديات المفتوحة وتحديد اتجاهات بحثية مستقبلية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.