2달 전
APPS를 이용한 코딩 도전 역량 측정
Dan Hendrycks; Steven Basart; Saurav Kadavath; Mantas Mazeika; Akul Arora; Ethan Guo; Collin Burns; Samir Puranik; Horace He; Dawn Song; Jacob Steinhardt

초록
프로그래밍은 현대 사회에서 가장 광범위하게 적용되는 기술 중 하나이지만, 현대 머신 러닝 모델들은 여전히 기본적인 문제를 해결하는 코드를 작성할 수 없습니다. 이 기술의 중요성에도 불구하고, 코드 생성 평가에 대한 연구는 의외로 적었으며, 코드 생성 성능을 엄밀하게 평가하기란 어렵습니다. 이러한 도전 과제를 해결하기 위해, 우리는 코드 생성을 위한 벤치마크인 APPS를 소개합니다. 이전 연구들이 제한된 환경에서 이루어졌던 것과 달리, 우리의 벤치마크는 모델들이 임의의 자연어 사양을 받아 만족스러운 파이썬 코드를 생성하는 능력을 측정합니다. 소프트웨어 개발자 후보자를 평가하는 회사들과 마찬가지로, 우리는 모델들이 생성한 코드를 테스트 케이스에서 검증하여 평가합니다. 우리의 벤치마크는 단순한 한 줄짜리 솔루션부터 중요한 알고리즘적 도전 과제까지 10,000개의 문제를 포함하고 있습니다. 우리는 깃허브와 우리의 학습 세트에서 대형 언어 모델들을 미세 조정하였으며, 모델들의 성능 향상에 따라 구문 오류의 발생률이 지수적으로 감소하고 있음을 발견하였습니다. 최근의 모델들인 GPT-Neo는 초급 문제의 약 20% 테스트 케이스를 통과할 수 있으며, 이를 통해 머신 러닝 모델들이 이제야 코드 작성 방법을 배우기 시작하였음을 확인하였습니다. 자동 코드 생성의 사회적 의미가 앞으로 몇 년 동안 점점 더 커질 것으로 예상되며, 우리의 벤치마크는 발전 상황을 추적하는 중요한 척도가 될 수 있을 것입니다.