7일 전
Eka-Eval: 인도 언어 대형 언어 모델의 포괄적 평가 프레임워크
Samridhi Raj Sinha; Rajvee Sheth; Abhishek Upperwal; Mayank Singh

초록
대형 언어 모델(LLM)의 급속한 발전은 영어 중심의 평가 기준을 넘어 언어적으로 다양성 있는 지역인 인도와 같은 곳의 요구사항을 충족시키는 평가 프레임워크에 대한 필요성을 강화하고 있습니다. 우리는 EKA-EVAL을 소개합니다. 이는 추론, 수학, 도구 사용, 장문 맥락 이해, 독해 능력 등 다양한 범주를 아우르는 35개 이상의 벤치마크를 통합한 일관적이고 실용적인 평가 프레임워크입니다. 이 중 10개는 인도 특유의 데이터셋을 포함하고 있습니다. 기존의 인도 언어 평가 도구와 비교할 때, EKA-EVAL은 분산 추론, 양자화, 다중 GPU 사용 등을 내장 지원하여 더 넓은 벤치마크 커버리지를 제공합니다. 우리의 체계적인 비교를 통해 EKA-EVAL은 글로벌 및 인도 LLM 모두를 위한 첫 번째 종단 간 확장 가능한 평가 스위트로 자리매김하며, 다언어 벤치마킹의 장벽을 크게 낮추고 있습니다. 이 프레임워크는 오픈 소스이며 공개적으로 https://github.com/lingo-iitgn/eka-eval에서 이용 가능하며, 100개 이상의 벤치마크로 확대되고 다언어 LLM 평가 생태계를 구축하는 지속적인 EKA 이니셔티브(https://eka.soket.ai)의 일부입니다.