2달 전

코드로 훈련된 대형 언어 모델 평가

Mark Chen; Jerry Tworek; Heewoo Jun; Qiming Yuan; Henrique Ponde de Oliveira Pinto; Jared Kaplan; Harri Edwards; Yuri Burda; Nicholas Joseph; Greg Brockman; Alex Ray; Raul Puri; Gretchen Krueger; Michael Petrov; Heidy Khlaaf; Girish Sastry; Pamela Mishkin; Brooke Chan; Scott Gray; Nick Ryder; Mikhail Pavlov; Alethea Power; Lukasz Kaiser; Mohammad Bavarian; Clemens Winter; Philippe Tillet; Felipe Petroski Such; Dave Cummings; Matthias Plappert; Fotios Chantzis; Elizabeth Barnes; Ariel Herbert-Voss; William Hebgen Guss; Alex Nichol; Alex Paino; Nikolas Tezak; Jie Tang; Igor Babuschkin; Suchir Balaji; Shantanu Jain; William Saunders; Christopher Hesse; Andrew N. Carr; Jan Leike; Josh Achiam; Vedant Misra; Evan Morikawa; Alec Radford; Matthew Knight; Miles Brundage; Mira Murati; Katie Mayer; Peter Welinder; Bob McGrew; Dario Amodei; Sam McCandlish; Ilya Sutskever; Wojciech Zaremba

논문 세부 정보 보기

초록

우리는 GitHub에서 공개된 코드로 미세 조정(fine-tuned)된 GPT 언어 모델인 Codex를 소개하며, 이 모델의 Python 코드 작성 능력을 연구합니다. Codex의 독립적인 프로덕션 버전은 GitHub Copilot을 구동합니다. 우리는 프로그램을 문서 문자열(docstrings)로부터 합성하는 기능적 정확성을 측정하기 위해 새로운 평가 세트인 HumanEval을 출시하였으며, 우리의 모델은 이 문제들 중 28.8%를 해결하였습니다. 반면에 GPT-3는 0%, GPT-J는 11.4%만 해결하였습니다. 또한, 우리는 모델에서 반복적으로 샘플링하는 것이 어려운 프롬프트(prompt)에 대한 작동 가능한 솔루션을 생성하는 데 매우 효과적인 전략임을 발견하였습니다. 이 방법을 사용하여 각 문제당 100개의 샘플로 70.2%의 문제를 해결할 수 있었습니다. 우리의 모델에 대한 철저한 분석 결과, 긴 연산 체인을 설명하는 문서 문자열과 변수에 연산을 결합하는 것 등에서 어려움이 있음을 확인하였습니다. 마지막으로, 강력한 코드 생성 기술을 배포함으로써 발생할 수 있는 안전성, 보안, 경제적 영향 등 더 넓은 범위의 잠재적 영향에 대해 논의합니다.