2달 전

BigCodeBench: 다양한 함수 호출과 복잡한 명령어를 사용한 코드 생성 벤치마크

Terry Yue Zhuo, Minh Chien Vu, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen Gong, Thong Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, David Lo, Binyuan Hui, Niklas Muennighoff, Daniel Fried, Xiaoning Du, Harm de Vries, Leandro Von Werra
BigCodeBench: 다양한 함수 호출과 복잡한 명령어를 사용한 코드 생성 벤치마크
초록

자동 소프트웨어 공학은 최근 프로그래밍을 위한 대형 언어 모델(Large Language Models, LLMs)의 발전으로 크게 강화되었습니다. 현재 벤치마크는 LLMs가 인간 개발자처럼 다양한 소프트웨어 공학 작업을 수행할 수 있음을 보여주고 있지만, 대부분의 평가는 짧고 독립적인 알고리즘 작업에 제한되어 있습니다. 도전적이고 실용적인 프로그래밍 작업을 해결하기 위해서는 데이터 분석 및 웹 개발과 같은 기능을 효율적으로 구현하기 위해 다양한 함수 호출을 도구로 활용할 수 있는 능력이 필요합니다. 또한, 여러 도구를 사용하여 작업을 해결하려면 복잡한 지시사항을 정확히 이해하는 구성적 추론이 필요합니다. 이러한 두 가지 특성을 모두 충족시키는 것은 LLMs에게 큰 도전이 될 수 있습니다.도전적이고 실용적인 프로그래밍 작업을 해결하는 LLMs의 성능을 평가하기 위해, 우리는 139개 라이브러리와 7개 영역에서 1,140개의 세부 프로그래밍 작업을 포함하여 다수의 함수 호출을 도구로 활용하도록 설계된 벤치마크인 Bench를 소개합니다. 각 프로그래밍 작업은 평균 99%의 분기 커버리지를 가진 5.6개의 테스트 케이스를 포함하여 LLMs를 철저히 평가하기 위해 설계되었습니다. 또한, 원본 docstrings를 필수 정보만으로 구성된 짧은 지시사항으로 자동 변환하는 자연 언어 중심의 Bench 변형 버전인 Benchi를 제안합니다.우리는 60개의 LLMs에 대한 광범위한 평가를 수행한 결과, LLMs가 복잡한 지시사항을 따라 함수 호출을 정확하게 사용하는 능력이 아직 부족함을 확인했습니다. 최대 점수가 60%로, 인간 개발자의 성능(97%)보다 현저히 낮았습니다. 이 결과는 이 분야에서 더 많은 발전이 필요함을 강조하고 있습니다.

BigCodeBench: 다양한 함수 호출과 복잡한 명령어를 사용한 코드 생성 벤치마크 | 최신 연구 논문 | HyperAI초신경