HyperAI超神経

大規模マルチタスク言語理解 (MMLU)

大規模マルチタスク言語理解 (MMLU) は、包括的な評価です。ゼロショットおよびフューショット設定でモデルを評価することにより、テキスト モデルのマルチタスク精度を測定することを目的としています。関連する論文結果」大規模なマルチタスク言語の理解度を測定する「2021年に提案され、ICLR 2021で公開されました。

MMLU は、OpenAI GPT-4、Mistral 7b、Google Gemini、Anthropic Claude 2 などのさまざまな言語モデルをテストおよび比較する方法を提供します。基本的な数学、米国の歴史、コンピューターサイエンス、法律を含む 57 のタスクをカバーしており、モデルには幅広い知識ベースと問題解決能力を実証することが求められます。

MMLU ベンチマークの主な詳細

  • トレーニングおよび検証セット: このデータ セットには 15,908 の質問が含まれており、数回の開発セット、検証セット、およびテスト セットに分かれています。少数ショット開発セットには主題ごとに 5 つの質問があり、ハイパーパラメータの選択に使用できる検証セットは 1540 の質問で構成され、テスト セットには 14,079 の質問があります。
  • モデルのパフォーマンス: MMLU の暫定結果によると、小さい LLM はランダム レベルの精度 (25% 精度) でパフォーマンスを発揮しますが、大きい GPT-3 (1,750 億パラメータ) はパフォーマンスが高く、数ショット精度は 43.91 TP3T、ゼロショット精度は 43.91 TP3T です。 37.7%。 2023 年までに、GPT-4 は 5 ショット精度 86.4% に達し、Google Gemini は 5 ショット精度 83.7% に達しました。ただし、最高のモデルであっても、人間の専門家レベルの精度 (89.8%) に達するには、大幅な改善が必要です。
  • 挑戦的な主題: モデル、特に大規模言語モデル (LLM) は、計算集約的なタスク (物理学や数学など) や人文科学的なトピック (倫理や法律など) ではパフォーマンスが低くなります。

MMLU ベンチマークの主な機能

MMLU ベンチマークは、STEM、人文科学、社会科学などの分野をカバーする、さまざまなタスクにおける言語モデルのパフォーマンスを測定します。 MMLU ベンチマークの主な機能には次のようなものがあります。

  • 57科目: このベンチマークは、基礎的な数学から法律や倫理などの高度な専門レベルに至るまで、さまざまな分野の 57 科目をカバーしています。
  • 粒度と幅広さ: MMLU は世界の知識と問題解決能力をテストするため、さまざまなトピックに対するモデルの理解を確認するのに最適です。
  • マルチタスクの精度: このテストは、さまざまなタスクをカバーすることでモデルのマルチタスクの精度を測定し、モデルの学術的および専門的専門知識の包括的な評価を保証します。
  • 大規模なトレーニングセットは必要ありません: 他のベンチマークとは異なり、MMLU は大規模なトレーニング セットを必要としません。代わりに、モデルが大量の多様なテキストを読んで必要な知識をすでに獲得していることを前提としています。これは、しばしば事前トレーニングと呼ばれるプロセスです。

これらの主要な機能により、MMLU ベンチマークは、言語モデルのパフォーマンスと、さまざまなコンテキストで言語を理解して生成する能力を評価するための貴重なツールになります。

MMLU の仕組み

MMLU ベンチマークは、さまざまなタスクにおける言語モデルのパフォーマンスを評価することによって機能します。これは、機械翻訳、テキストの要約、センチメント分析など、さまざまなコンテキストで言語を理解して生成するモデルの能力を測定します。

最終的な MMLU スコアは、各タスクで取得されたスコアの平均であり、モデルの全体的なパフォーマンスの包括的な尺度を提供します。

MMLU 利点

MMLU ベンチマークには多くの利点がありますが、そのうち最も重要なものは次の 3 つです。

  1. これは、さまざまな言語モデルのパフォーマンスを比較する定量的な方法を提供します。
  2. 計算効率が高く、理解しやすいです。
  3. これは、さまざまなコンテキストで言語を理解して生成するモデルの能力を考慮しており、言語構造の特定の側面を捉えることができます。

MMLUの制限事項

MMLU ベンチマークには、理想的なベンチマークとは言えないいくつかの問題もあります。

  1. 質問に重要なコンテキストが欠落しています: MMLU ベンチマークの一部の質問にはコンテキストが欠如しており、正しく答えることが困難または不可能になっており、これらの質問はコピー&ペーストのエラーが原因である可能性があります。
  2. 解答セットがあいまいです: このベンチマークには、曖昧な回答セットを含む質問が含まれており、混乱やモデルのパフォーマンスの誤った評価につながる可能性があります。
  3. 間違った答えのセット: MMLU ベンチマークの一部の質問には間違った回答セットがあり、誤解を招く評価結果につながる可能性があります。
  4. 合図に対する敏感さ: MMLU は使用される正確なヒントに非常に敏感であるため、ヒントによってパフォーマンスが大幅に変化する可能性があります。

参考文献

【1】https://klu.ai/glossary/mmlu-eval