Multiple Choice Qa
ベンチマークリスト
このタスクに関連するすべてのベンチマーク
mmlu-elementary-mathematics
最高モデル: Chinchilla (few-shot, k=5)
評価指標
詳細を表示
mmlu-college-biology
最高モデル: Chinchilla (few-shot, k=5)
評価指標
詳細を表示
mmlu-high-school-biology
最高モデル: Chinchilla (few-shot, k=5)
評価指標
詳細を表示
mmlu-college-chemistry
最高モデル: Chinchilla (few-shot, k=5)
評価指標
詳細を表示
mmlu-high-school-chemistry
最高モデル: Chinchilla (few-shot, k=5)
評価指標
詳細を表示
mmlu-college-computer-science
最高モデル: Chinchilla (few-shot, k=5)
評価指標
詳細を表示
mmlu-high-school-mathematics
最高モデル: GAL 120B (zero-shot)
評価指標
詳細を表示
mmlu-electrical-engineer
最高モデル: GAL 120B (zero-shot)
評価指標
詳細を表示
mmlu-formal-logic
最高モデル: Gopher (few-shot, k=5)
評価指標
詳細を表示
medmcqa
最高モデル: Meditron-70B (CoT + SC)
評価指標
詳細を表示
frenchmedmcqa
最高モデル: CamemBERT
評価指標
詳細を表示
mmlu-anatomy
最高モデル: Med-PaLM 2 (ER)
評価指標
詳細を表示
mmlu-abstract-algebra
最高モデル: GAL 30B (zero-shot)
評価指標
詳細を表示
mmlu-econometrics
最高モデル: Gopher (few-shot, k=5)
評価指標
詳細を表示
mmlu-high-school-computer-science
最高モデル: GAL 120B (zero-shot)
評価指標
詳細を表示
mmlu-machine-learning
最高モデル: Chinchilla (few-shot, k=5)
評価指標
詳細を表示
mmlu-college-mathematics
最高モデル: GAL 120B (zero-shot)
評価指標
詳細を表示
mmlu-astronomy
最高モデル: Chinchilla (few-shot, k=5)
評価指標
詳細を表示
indicglue-wstp-pa
評価指標
詳細を表示
mmlu-college-physics
評価指標
詳細を表示
mmlu-high-school-physics
評価指標
詳細を表示
mmlu-high-school-statistics
評価指標
詳細を表示
mmlu-clinical-knowledge
評価指標
詳細を表示
mmlu-professional-medicine
評価指標
詳細を表示
mmlu-college-medicine
評価指標
詳細を表示
big-bench-hyperbaton
評価指標
詳細を表示
big-bench-movie-recommendation
評価指標
詳細を表示
big-bench-navigate
評価指標
詳細を表示
big-bench-ruin-names
評価指標
詳細を表示
big-bench-novel-concepts
評価指標
詳細を表示
mmlu-medical-genetics
評価指標
詳細を表示