12일 전

CoDesc: 대규모 코드-설명 병렬 데이터셋

Masum Hasan, Tanveer Muttaqueen, Abdullah Al Ishtiaq, Kazi Sajeed Mehrab, Md. Mahim Anjum Haque, Tahmid Hasan, Wasi Uddin Ahmad, Anindya Iqbal, Rifat Shahriyar
CoDesc: 대규모 코드-설명 병렬 데이터셋
초록

자연어와 소스 코드 간의 번역은 개발자가 자연어를 활용하여 프로그램을 이해하고 아이디어를 도출하며 검색하고 작성하는 데 있어 소프트웨어 개발을 지원할 수 있습니다. 산업계와 연구계의 관심이 증가하고 있음에도 불구하고, 이 작업은 대규모 표준 데이터셋이 부족하고, 표준적인 노이즈 제거 방법과 평가 기준이 부재하기 때문에 여전히 어려운 과제입니다. 이로 인해 연구자들은 새로운 소규모 데이터셋을 수작업으로 수집해야 하며, 그 결과 발표된 연구들 사이에 일관성 부족 문제가 발생합니다. 본 연구에서는 420만 개의 자바 메서드와 자연어 설명으로 구성된 대규모 병렬 데이터셋인 CoDesc를 제안합니다. 광범위한 분석을 통해 데이터셋 내에서 흔히 나타나는 노이즈 패턴을 식별하고 제거하였습니다. CoDesc가 코드-설명 쌍에 대해 두 가지 보완적인 작업—코드 요약(code summarization)과 코드 검색(code search)—에서 우수한 성능을 발휘함을 실험을 통해 입증하였습니다. 특히, 코드 검색 성능을 최대 22% 향상시킬 수 있음을 보였으며, 코드 요약 분야에서 새로운 최고 성능(state-of-the-art)을 달성하였습니다. 더불어 CoDesc가 사전 훈련(pre-training)과 미세 조정(fine-tuning) 아키텍처에서 효과적임을 보여주며, 자바용 사전 훈련된 언어 모델 개발의 가능성을 열어줍니다. 향후 연구를 촉진하기 위해 본 연구는 데이터셋, 데이터 처리 도구, 그리고 평가 벤치마크를 \url{https://github.com/csebuetnlp/CoDesc}에서 공개합니다.

CoDesc: 대규모 코드-설명 병렬 데이터셋 | 최신 연구 논문 | HyperAI초신경