6ヶ月前

データセット

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

Shiwen Ni Guhong Chen Shuaimin Li Xuanang Chen Siyi Li Bingli Wang Qiyao Wang Xingjian Wang Yifan Zhang Liyang Fan

概要

近年、大規模言語モデルの能力が深度と幅広さの両面で急速に発展する中、それに応じた評価ベンチマークが次々と登場している。モデル性能を定量的に評価するツールとして、ベンチマークはモデルの能力を測定する核心的な手段であるだけでなく、モデル開発の方向性を導く重要な要素であり、技術革新を促進する上でも不可欠な役割を果たしている。本稿では、初めて大規模言語モデル用ベンチマークの現状と発展を体系的にレビューし、代表的な283のベンチマークを「汎用能力」「分野特化型」「目的特化型」の3つのカテゴリーに分類した。汎用能力ベンチマークは、核心言語学、知識、推論などに焦点を当てており、分野特化型ベンチマークは自然科学、人文・社会科学、工学技術などの分野を対象としており、目的特化型ベンチマークはリスク、信頼性、エージェントなどに注目している。また、現行のベンチマークには、データ汚染によるスコアの誇張、文化的・言語的バイアスに起因する評価の不平等、プロセスの信頼性や動的環境に対する評価の不足といった問題が存在すると指摘し、今後のベンチマークの革新に向けた参考となる設計パラダイムを提示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

データセット

ベンチマーク

AIインフラストラクチャ

アプローチ／フレームワーク

Shiwen Ni Guhong Chen Shuaimin Li Xuanang Chen Siyi Li Bingli Wang Qiyao Wang Xingjian Wang Yifan Zhang Liyang Fan

概要

近年、大規模言語モデルの能力が深度と幅広さの両面で急速に発展する中、それに応じた評価ベンチマークが次々と登場している。モデル性能を定量的に評価するツールとして、ベンチマークはモデルの能力を測定する核心的な手段であるだけでなく、モデル開発の方向性を導く重要な要素であり、技術革新を促進する上でも不可欠な役割を果たしている。本稿では、初めて大規模言語モデル用ベンチマークの現状と発展を体系的にレビューし、代表的な283のベンチマークを「汎用能力」「分野特化型」「目的特化型」の3つのカテゴリーに分類した。汎用能力ベンチマークは、核心言語学、知識、推論などに焦点を当てており、分野特化型ベンチマークは自然科学、人文・社会科学、工学技術などの分野を対象としており、目的特化型ベンチマークはリスク、信頼性、エージェントなどに注目している。また、現行のベンチマークには、データ汚染によるスコアの誇張、文化的・言語的バイアスに起因する評価の不平等、プロセスの信頼性や動的環境に対する評価の不足といった問題が存在すると指摘し、今後のベンチマークの革新に向けた参考となる設計パラダイムを提示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています