Mmlu
评估指标
key
mmlu
mmluhumanities
mmluother
mmlusocialscience
mmlustem
model
num
org
rank
time
评测结果
各个模型在此基准测试上的表现结果
比较表格
模型名称 | key | mmlu | mmluhumanities | mmluother | mmlusocialscience | mmlustem | model | num | org | rank | time |
---|---|---|---|---|---|---|---|---|---|---|---|
模型 1 | 1.000000 | 83.000000 | 87.000000 | 83.600000 | 89.800000 | 75.700000 | GPT-4 | N/A | OpenAI | 1.000000 | 2023/3/15 |