HyperAI

摘要

大型语言模型（LLMs）的迅速发展加剧了对超越英语中心基准评估框架的需求，特别是在印度这样语言多样化的地区。我们介绍了EKA-EVAL，这是一个统一且可投入生产的评估框架，集成了超过35个基准测试，包括10个特定于印地语的数据集，涵盖了推理、数学、工具使用、长上下文理解和阅读理解等多个类别。与现有的印度语言评估工具相比，EKA-EVAL提供了更广泛的基准覆盖范围，并内置支持分布式推理、量化和多GPU使用。我们的系统比较表明，EKA-EVAL是首个端到端且可扩展的评估套件，专为全球和印地语LLMs量身定制，显著降低了多语言基准测试的门槛。该框架是开源的，并已公开发布在https://github.com/lingo-iitgn/eka-eval上，同时作为正在进行的EKA计划（https://eka.soket.ai）的一部分，该计划旨在扩展至超过100个基准测试，并建立一个稳健的多语言评估生态系统以支持LLMs的发展。

摘要

Samridhi Raj Sinha Rajvee Sheth Abhishek Upperwal Mayank Singh

摘要

用 AI 构建 AI

HyperAI Newsletters

Samridhi Raj Sinha Rajvee Sheth Abhishek Upperwal Mayank Singh

摘要

用 AI 构建 AI

HyperAI Newsletters

Samridhi Raj Sinha Rajvee Sheth Abhishek Upperwal Mayank Singh

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Eka-Eval：印度语言大型语言模型的综合评估框架

Samridhi Raj Sinha Rajvee Sheth Abhishek Upperwal Mayank Singh

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Eka-Eval：印度语言大型语言模型的综合评估框架

Samridhi Raj Sinha Rajvee Sheth Abhishek Upperwal Mayank Singh

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Eka-Eval：印度语言大型语言模型的综合评估框架

Samridhi Raj Sinha Rajvee Sheth Abhishek Upperwal Mayank Singh

摘要

用 AI 构建 AI

HyperAI Newsletters