Multiple Choice Qa
基准测试列表
该任务相关的所有基准测试列表
mmlu-elementary-mathematics
最佳模型: Chinchilla (few-shot, k=5)
评估指标
查看详情
mmlu-college-biology
最佳模型: Chinchilla (few-shot, k=5)
评估指标
查看详情
mmlu-high-school-biology
最佳模型: Chinchilla (few-shot, k=5)
评估指标
查看详情
mmlu-college-chemistry
最佳模型: Chinchilla (few-shot, k=5)
评估指标
查看详情
mmlu-high-school-chemistry
最佳模型: Chinchilla (few-shot, k=5)
评估指标
查看详情
mmlu-college-computer-science
最佳模型: Chinchilla (few-shot, k=5)
评估指标
查看详情
mmlu-high-school-mathematics
最佳模型: GAL 120B (zero-shot)
评估指标
查看详情
mmlu-electrical-engineer
最佳模型: GAL 120B (zero-shot)
评估指标
查看详情
mmlu-formal-logic
最佳模型: Gopher (few-shot, k=5)
评估指标
查看详情
medmcqa
最佳模型: Meditron-70B (CoT + SC)
评估指标
查看详情
frenchmedmcqa
最佳模型: CamemBERT
评估指标
查看详情
mmlu-anatomy
最佳模型: Med-PaLM 2 (ER)
评估指标
查看详情
mmlu-abstract-algebra
最佳模型: GAL 30B (zero-shot)
评估指标
查看详情
mmlu-econometrics
最佳模型: Gopher (few-shot, k=5)
评估指标
查看详情
mmlu-high-school-computer-science
最佳模型: GAL 120B (zero-shot)
评估指标
查看详情
mmlu-machine-learning
最佳模型: Chinchilla (few-shot, k=5)
评估指标
查看详情
mmlu-college-mathematics
最佳模型: GAL 120B (zero-shot)
评估指标
查看详情
mmlu-astronomy
最佳模型: Chinchilla (few-shot, k=5)
评估指标
查看详情
indicglue-wstp-pa
评估指标
查看详情
mmlu-college-physics
评估指标
查看详情
mmlu-high-school-physics
评估指标
查看详情
mmlu-high-school-statistics
评估指标
查看详情
mmlu-clinical-knowledge
评估指标
查看详情
mmlu-professional-medicine
评估指标
查看详情
mmlu-college-medicine
评估指标
查看详情
big-bench-hyperbaton
评估指标
查看详情
big-bench-movie-recommendation
评估指标
查看详情
big-bench-navigate
评估指标
查看详情
big-bench-ruin-names
评估指标
查看详情
big-bench-novel-concepts
评估指标
查看详情
mmlu-medical-genetics
评估指标
查看详情