2日前

大規模言語モデルベンチマークに関する調査

Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
大規模言語モデルベンチマークに関する調査
要約

近年、大規模言語モデルの能力が深度と幅広さの両面で急速に発展する中、それに応じた評価ベンチマークが次々と登場している。モデル性能を定量的に評価するツールとして、ベンチマークはモデルの能力を測定する核心的な手段であるだけでなく、モデル開発の方向性を導く重要な要素であり、技術革新を促進する上でも不可欠な役割を果たしている。本稿では、初めて大規模言語モデル用ベンチマークの現状と発展を体系的にレビューし、代表的な283のベンチマークを「汎用能力」「分野特化型」「目的特化型」の3つのカテゴリーに分類した。汎用能力ベンチマークは、核心言語学、知識、推論などに焦点を当てており、分野特化型ベンチマークは自然科学、人文・社会科学、工学技術などの分野を対象としており、目的特化型ベンチマークはリスク、信頼性、エージェントなどに注目している。また、現行のベンチマークには、データ汚染によるスコアの誇張、文化的・言語的バイアスに起因する評価の不平等、プロセスの信頼性や動的環境に対する評価の不足といった問題が存在すると指摘し、今後のベンチマークの革新に向けた参考となる設計パラダイムを提示した。