7日前
Eka-Eval : インド言語の大規模言語モデルの包括的評価フレームワーク
Samridhi Raj Sinha; Rajvee Sheth; Abhishek Upperwal; Mayank Singh

要約
大規模言語モデル(Large Language Models: LLMs)の急速な進歩は、英語中心のベンチマークを超えた評価フレームワークの必要性を高め、インドのような多様な言語地域の要件に対応する必要があります。本稿では、EKA-EVALという統合的で実装可能な評価フレームワークを紹介します。このフレームワークには35以上のベンチマークが統合されており、推論、数学、ツール利用、長文コンテキスト理解、読解力などのカテゴリーにまたがる10のインド特有のデータセットも含まれています。既存のインド言語評価ツールと比較して、EKA-EVALはより広範なベンチマークカバレッジを提供し、分散推論、量子化、マルチGPU使用への組み込みサポートが特徴です。我々の体系的な比較により、EKA-EVALはグローバルおよびインド言語向けにカスタマイズされた最初の一貫した拡張可能な評価スイートとして位置づけられ、多言語ベンチマークへの障壁を大幅に低減しています。このフレームワークはオープンソースであり、https://github.com/lingo-iitgn/eka-eval で公開されています。また、100以上のベンチマークへ拡大し、LLM用の堅牢かつ多言語対応の評価エコシステムを確立することを目指す進行中のEKAイニシアティブ(https://eka.soket.ai)の一環でもあります。