13일 전

자연어에서 코드 생성: 더 적은 사전 지식과 더 많은 단일 언어 데이터를 활용하여

Sajad Norouzi, Keyi Tang, Yanshuai Cao
자연어에서 코드 생성: 더 적은 사전 지식과 더 많은 단일 언어 데이터를 활용하여
초록

의미 분석을 위한 학습 데이터셋은 일반적으로 다른 대부분의 자연어 처리(NLP) 작업보다 annotation에 더 높은 전문 지식이 필요하기 때문에 크기가 작다. 그 결과, 이 응용 분야의 모델들은 보통 아키텍처나 알고리즘에 추가적인 사전 지식을 내재화해야 한다. 이러한 인간 전문가에 대한 의존도 증가는 자동화를 방해하고, 실무에서는 개발 및 유지보수 비용을 증가시킨다. 본 연구는 코드 생성에 특화된 유도 편향(Inductive bias) 설계를 최소화하면서도 일반적인 트랜스포머 기반의 시퀀스-투-시퀀스(seq2seq) 모델이 경쟁력 있는 성능을 달성할 수 있는지 조사한다. 표적 프로그래밍 언어의 비교적 크기가 큰 단일 언어(corpus)를 웹에서 저비용으로 추출하여 활용함으로써, Django에서는 정확도(Exact Match) 81.03%, CoNaLa에서는 BLEU 점수 32.57을 달성하였다. 이는 현재까지 알려진 최고 성능(SOTA)에 해당한다. 이러한 긍정적인 결과는 실무에서 정확한 의미 분석 모델을 구축하는 데 있어 훨씬 더 쉬운 접근 방식이 존재할 수 있음을 시사한다.

자연어에서 코드 생성: 더 적은 사전 지식과 더 많은 단일 언어 데이터를 활용하여 | 최신 연구 논문 | HyperAI초신경