2달 전

대형 언어 모델의 지시사항 준수 평가

Jeffrey Zhou; Tianjian Lu; Swaroop Mishra; Siddhartha Brahma; Sujoy Basu; Yi Luan; Denny Zhou; Le Hou

초록

대형 언어 모델(LLM)의 핵심 역량 중 하나는 자연어 지시사항을 따르는 능력입니다. 그러나 이러한 능력을 평가하는 방법은 표준화되어 있지 않습니다. 인간 평가는 비용이 많이 들고 느리며 객관적으로 재현하기 어렵습니다. 반면 LLM 기반 자동 평가는 평가자 LLM의 능력에 의해 편향되거나 제한될 가능성이 있습니다. 이러한 문제를 해결하기 위해, 우리는 대형 언어 모델을 위한 지시사항 준수 평가(IFEval)를 소개합니다. IFEval은 간단하고 쉽게 재현할 수 있는 평가 벤치마크입니다. 이는 "400단어 이상으로 작성하라"나 "AI라는 키워드를 최소 3번 언급하라"와 같은 "검증 가능한 지시사항" 집합에 초점을 맞추고 있습니다. 우리는 25종류의 검증 가능한 지시사항을 식별하고 약 500개의 프롬프트를 구성하였으며, 각 프롬프트는 하나 또는 여러 개의 검증 가능한 지시사항을 포함하고 있습니다. 시장에서 널리 사용되는 두 가지 LLM에 대한 평가 결과를 보여드립니다. 우리의 코드와 데이터는 https://github.com/google-research/google-research/tree/master/instruction_following_eval에서 확인할 수 있습니다.