13일 전
사전 훈련을 통한 외부 지식 통합을 통한 자연어에서 코드 생성으로의 전환
Frank F. Xu, Zhengbao Jiang, Pengcheng Yin, Bogdan Vasilescu, Graham Neubig

초록
오픈도메인 코드 생성은 일반 목적 프로그래밍 언어(예: 파이썬)로 자연어(NL) 의도를 기반으로 코드를 생성하는 것을 목표로 한다. 코드를 작성할 때 개발자들이 보통 웹에서 자료를 검색한다는 직관에 착안하여, 자연어에서 코드로의 변환 과정에 외부 지식의 두 가지 형태를 통합하는 효과성을 탐구하였다. 그 두 가지 형태는 온라인 프로그래밍 QA 포럼인 스택오버플로우(StackOverflow)에서 자동으로 수집한 자연어-코드 쌍과 프로그래밍 언어 API 문서이다. 평가 결과, 데이터 증강과 검색 기반 데이터 재샘플링을 통해 두 가지 자료를 결합함으로써, 코드 생성 테스트베드인 CoNaLa에서 현재 최고 성능 기준보다 최대 2.2%의 절대 BLEU 점수 향상을 달성하였다. 관련 코드와 자료는 https://github.com/neulab/external-knowledge-codegen 에서 공개되어 있다.