Command Palette
Search for a command to run...
Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

초록
대규모 언어 모델(LLM)과 자연어 처리 데이터셋의 급속한 확장으로 인해 종합적인 벤치마크 평가가 계산적으로 비현실적인 수준에 이르렀다. 국제 수학 올림피아드와 같은 고위험 경쟁 대회에서 몇 가지 철저히 선택된 문제만으로도 최고의 성과자를 구분할 수 있음에 영감을 받아, 본 연구는 평가 비용을 80~99%까지 감축하면서도 순위의 정확성을 유지하는 SubLIME을 제안한다. SubLIME은 단지 5~20개의 앵커 LLM에 대한 제한된 성능 데이터와 데이터셋의 내재적 지표인 난이도(Difficulty), 품질(Quality), 분포의 산란도(Distributional Dispersion)를 결합하여, 후보 서브셋이 전체 벤치마크 순위를 얼마나 잘 반영하는지를 예측하는 순위 상관 예측(Rank Correlation Prediction, RCP) 모델을 학습한다. 이러한 예측을 기반으로 SubLIME은 새로운 LLM을 평가하기 위해 전체 데이터셋의 1~20%에 해당하는 ‘우승자 서브셋’을 선택하며, 다양한 10개의 벤치마크에서 기존의 데이터 효율적 방법들보다 훨씬 더 우수한 전역 순위 보존 성능을 보인다.