HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

SWE-QA: هل يمكن نماذج اللغة الإجابة على أسئلة المستوى المستودع للرموز؟

Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

SWE-QA: هل يمكن نماذج اللغة الإجابة على أسئلة المستوى المستودع للرموز؟

الملخص

الفهم والاستنتاج حول مخازن البرمجيات بالكامل يُعدّ من المهارات الأساسية التي تُعدّ أدوات هندسة البرمجيات الذكية بحاجة إليها. وعلى الرغم من التقدم الذي أحرزته المعايير الحالية مثل CoSQA وCodeQA، إلا أن هذه المعايير تركز بشكل كبير على قطع صغيرة من الكود ذات طبيعة مستقلة. وتفشل هذه البيئات في التقاط التعقيدات الحقيقية لمشاريع البرمجيات، حيث يُعدّ الفهم الفعّال والاستنتاج غالبًا ما يتطلب التنقل عبر عدة ملفات، وفهم البنية المعمارية للبرمجيات، وربط الإجابات بعلاقة اعتماد طويلة المدى في الكود. في هذه الورقة، نقدّم SWE-QA، وهي معيار لحل أسئلة الكود على مستوى المخزن (QA) مصمم لتمكين الأبحاث المتعلقة بنظم الإجابة الآلية على أسئلة الكود في بيئات برمجية واقعية. يحتوي SWE-QA على 576 زوجًا من الأسئلة والإجابات عالية الجودة، وتغطي مجموعة متنوعة من الفئات، منها فهم النية، والاستنتاج عبر ملفات متعددة، وتحليل الاعتماد المتعدد الخطوات. لبناء SWE-QA، قمنا أولًا بجمع 77,100 مسألة من GitHub من 11 مشروعًا شهيرًا. بناءً على تحليل الأسئلة التي تنشأ بشكل طبيعي من المطورين، والتي استُخلِصت من هذه المسائل، طوّرنا تصنيفًا ثنائي المستوى للأسئلة على مستوى المخزن، وصُمّم مجموعة من الأسئلة الأولية لكل فئة. ثم قمنا يدويًا بتحديث واعتماد الأسئلة لكل فئة، وجمعنا الإجابات المقابلة لها. كتطبيق نموذجي، طوّرنا أيضًا SWE-QA-Agent، وهي إطار عمل قائم على وكالات الذكاء الاصطناعي (LLM agents) التي تُجري استنتاجات وتنفذ إجراءات تلقائيًا للعثور على الإجابات. قمنا بتقييم ستة نماذج ذكاء اصطناعي متقدمة (LLMs) على SWE-QA باستخدام استراتيجيات مختلفة لتوسيع السياق. أظهرت النتائج التجريبية إمكانات كبيرة للنماذج، خاصةً إطارنا SWE-QA-Agent، في معالجة مهام الإجابة على الأسئلة على مستوى المخزن، مع تسليط الضوء على التحديات المفتوحة وتحديد اتجاهات بحثية مستقبلية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SWE-QA: هل يمكن نماذج اللغة الإجابة على أسئلة المستوى المستودع للرموز؟ | الأوراق البحثية | HyperAI