13일 전

StackOverflow 읽기는 부정행위를 장려한다: 질문 텍스트 추가가 추출형 코드 생성을 개선한다

Gabriel Orlanski, Alex Gittens
StackOverflow 읽기는 부정행위를 장려한다: 질문 텍스트 추가가 추출형 코드 생성을 개선한다
초록

프로그래밍 질문의 제목만으로 답변하는 것은 핵심적인 맥락 정보가 누락되므로 어려운 일이다. 이 관찰을 바탕으로, 우리는 CoNaLa 데이터셋(Yin 등, 2018)의 해당 의도(intent)와 함께 사용할 수 있도록 4만 개 이상의 StackOverflow 질문 텍스트로 구성된 코퍼스를 제안한다. 질문 본문과 의도를 함께 사용하여 BART 모델을 활용해 이 새로운 과제에 대한 기준(BLEU) 점수 34.35를 확립하였다. 또한, 탐색된 CoNaLa 데이터를 라벨링된 데이터와 결합함으로써 추가적인 향상이 이루어졌으며, BLEU 점수는 35.32로 2.8% 향상되었다. 이 추가 데이터를 활용하여 기존 최신 기술의 CoNaLa 모델들을 평가한 결과, 본 연구에서 제안하는 본문과 탐색된 데이터를 활용하는 방법이 기존 최고 성능 모델의 BLEU 점수를 71.96% 초과하는 성능을 기록하였다. 마지막으로, BART가 비지도 다중모달 학습자임을 입증하고, 추출적 행동(extractive behavior)을 분석하기 위해 아보레이션(ablation) 실험을 수행하였다. 코드 및 데이터는 https://github.com/gabeorlanski/stackoverflow-encourages-cheating 에서 확인할 수 있다.

StackOverflow 읽기는 부정행위를 장려한다: 질문 텍스트 추가가 추출형 코드 생성을 개선한다 | 최신 연구 논문 | HyperAI초신경