2달 전

SubLIME: 데이터 효율적인 LLM 평가를 위한 순위 상관 예측을 통한 서브셋 선택

Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

초록

대규모 언어 모델(LLM)과 자연어 처리 데이터셋의 급속한 확장으로 인해 종합적인 벤치마크 평가가 계산적으로 비현실적인 수준에 이르렀다. 국제 수학 올림피아드와 같은 고위험 경쟁 대회에서 몇 가지 철저히 선택된 문제만으로도 최고의 성과자를 구분할 수 있음에 영감을 받아, 본 연구는 평가 비용을 80~99%까지 감축하면서도 순위의 정확성을 유지하는 SubLIME을 제안한다. SubLIME은 단지 5~20개의 앵커 LLM에 대한 제한된 성능 데이터와 데이터셋의 내재적 지표인 난이도(Difficulty), 품질(Quality), 분포의 산란도(Distributional Dispersion)를 결합하여, 후보 서브셋이 전체 벤치마크 순위를 얼마나 잘 반영하는지를 예측하는 순위 상관 예측(Rank Correlation Prediction, RCP) 모델을 학습한다. 이러한 예측을 기반으로 SubLIME은 새로운 LLM을 평가하기 위해 전체 데이터셋의 1~20%에 해당하는 ‘우승자 서브셋’을 선택하며, 다양한 10개의 벤치마크에서 기존의 데이터 효율적 방법들보다 훨씬 더 우수한 전역 순위 보존 성능을 보인다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

SubLIME: 데이터 효율적인 LLM 평가를 위한 순위 상관 예측을 통한 서브셋 선택

Gayathri Saranathan Cong Xu Mahammad Parwez Alam Tarun Kumar Martin Foltin et al

초록

AI로 AI 구축

Hyper Newsletters