HyperAI超神经
6 days ago

Eka-Eval:印度语言大型语言模型的综合评估框架

Samridhi Raj Sinha; Rajvee Sheth; Abhishek Upperwal; Mayank Singh
Eka-Eval:印度语言大型语言模型的综合评估框架
摘要

大型语言模型(LLMs)的迅速发展加剧了对超越英语中心基准评估框架的需求,特别是在印度这样语言多样化的地区。我们介绍了EKA-EVAL,这是一个统一且可投入生产的评估框架,集成了超过35个基准测试,包括10个特定于印地语的数据集,涵盖了推理、数学、工具使用、长上下文理解和阅读理解等多个类别。与现有的印度语言评估工具相比,EKA-EVAL提供了更广泛的基准覆盖范围,并内置支持分布式推理、量化和多GPU使用。我们的系统比较表明,EKA-EVAL是首个端到端且可扩展的评估套件,专为全球和印地语LLMs量身定制,显著降低了多语言基准测试的门槛。该框架是开源的,并已公开发布在https://github.com/lingo-iitgn/eka-eval上,同时作为正在进行的EKA计划(https://eka.soket.ai)的一部分,该计划旨在扩展至超过100个基准测试,并建立一个稳健的多语言评估生态系统以支持LLMs的发展。