HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau du dépôt ?

Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau du dépôt ?

Résumé

Comprendre et raisonner sur l'ensemble d'un dépôt logiciel constitue une capacité essentielle pour les outils intelligents d'ingénierie logicielle. Bien que les benchmarks existants tels que CoSQA et CodeQA aient permis des avancées dans ce domaine, ils se concentrent principalement sur de petites fragments de code auto-contenus. Ces approches ne parviennent pas à capturer la complexité des dépôts du monde réel, où une compréhension efficace et un raisonnement pertinents exigent souvent la navigation entre plusieurs fichiers, la maîtrise de l'architecture logicielle, ainsi que le repérage des réponses dans des dépendances de code à longue portée. Dans cet article, nous présentons SWE-QA, un benchmark de réponse à des questions sur le code à l'échelle du dépôt, conçu pour favoriser la recherche sur les systèmes automatisés de réponse à des questions dans des environnements de code réalistes. SWE-QA comprend 576 paires question-réponse de haute qualité, couvrant diverses catégories, notamment la compréhension des intentions, le raisonnement inter-fichiers et l'analyse de dépendances multi-étapes. Pour construire SWE-QA, nous avons d'abord extrait 77 100 problèmes (issues) provenant de 11 dépôts GitHub populaires. À partir d'une analyse des questions naturellement posées par les développeurs, extraite de ces problèmes, nous avons établi une taxonomie à deux niveaux de questions à l'échelle du dépôt, puis défini un ensemble de questions types pour chaque catégorie. Pour chaque catégorie, nous avons ensuite sélectionné manuellement et validé les questions, et recueilli leurs réponses correspondantes. À titre d'application prototype, nous avons également développé SWE-QA-Agent, un cadre agissant dans lequel des agents basés sur des modèles de langage à grande échelle (LLM) raisonnent et agissent de manière autonome pour trouver des réponses. Nous évaluons six LLM avancés sur SWE-QA selon différentes stratégies d'enrichissement du contexte. Les résultats expérimentaux mettent en évidence le potentiel des LLM, en particulier notre cadre SWE-QA-Agent, pour répondre aux défis de la question-réponse à l'échelle du dépôt, tout en révélant des défis ouverts et en ouvrant la voie à de nouvelles directions de recherche.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau du dépôt ? | Articles de recherche | HyperAI