Command Palette

Search for a command to run...

한 달 전

SWE-QA: 언어 모델은 리포지토리 수준의 코드 질문에 답할 수 있는가?

Weihan Peng Yuling Shi Yuhang Wang Xinyun Zhang Beijun Shen Xiaodong Gu

SWE-QA: 언어 모델은 리포지토리 수준의 코드 질문에 답할 수 있는가?

초록

소프트웨어 저장소 전체에 대한 이해와 추론은 지능형 소프트웨어 공학 도구에 필수적인 능력이다. 기존의 벤치마크인 CoSQA 및 CodeQA는 이 분야를 발전시켰지만, 대부분은 작고 독립적인 코드 조각에 초점을 맞추고 있다. 이러한 설정은 실제 저장소에서 발생하는 복잡성을 충분히 반영하지 못하며, 효과적인 이해와 추론을 위해서는 여러 파일을 탐색하고 소프트웨어 아키텍처를 파악하며, 장거리 코드 종속성에 기반한 답변을 도출해야 하는 경우가 많다. 본 논문에서는 현실적인 코드 환경에서 자동화된 질문-답변(QA) 시스템에 대한 연구를 촉진하기 위해 설계된 저장소 수준의 코드 QA 벤치마크인 SWE-QA를 제안한다. SWE-QA는 의도 이해, 파일 간 추론, 다단계 종속성 분석 등 다양한 범주에 걸쳐 576개의 고품질 질문-답변 쌍을 포함하고 있다. SWE-QA를 구축하기 위해 먼저 11개의 인기 있는 GitHub 저장소에서 총 77,100개의 이슈를 크롤링하였다. 이 이슈에서 자연스럽게 발생한 개발자 질문들을 분석한 결과, 저장소 수준의 질문에 대한 이중 계층 분류 체계를 도출하였으며, 각 범주에 해당하는 시드 질문 세트를 구성하였다. 각 범주별로 질문은 수작업으로 선별하고 검증하였으며, 해당 질문에 대한 정답도 수집하였다. 또한 프로토타입 응용 사례로써, LLM 기반 에이전트가 추론과 행동을 통해 자동으로 답변을 탐색하는 에이전트 프레임워크인 SWE-QA-Agent를 개발하였다. 다양한 컨텍스트 증강 전략 하에서 여섯 가지 고급 LLM을 SWE-QA에서 평가한 결과, 특히 SWE-QA-Agent 프레임워크가 저장소 수준의 QA 문제 해결에 있어 LLM의 잠재력을 입증하였으나, 동시에 여전히 해결해야 할 과제들이 존재함을 밝히며, 향후 연구 방향을 제시하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
SWE-QA: 언어 모델은 리포지토리 수준의 코드 질문에 답할 수 있는가? | 연구 논문 | HyperAI초신경