HyperAI超神経

Multiple Choice Qa

ベンチマークリスト

このタスクに関連するすべてのベンチマーク

mmlu-elementary-mathematics
最高モデル: Chinchilla (few-shot, k=5)

評価指標

詳細を表示
mmlu-college-biology
最高モデル: Chinchilla (few-shot, k=5)

評価指標

詳細を表示
mmlu-high-school-biology
最高モデル: Chinchilla (few-shot, k=5)

評価指標

詳細を表示
mmlu-college-chemistry
最高モデル: Chinchilla (few-shot, k=5)

評価指標

詳細を表示
mmlu-high-school-chemistry
最高モデル: Chinchilla (few-shot, k=5)

評価指標

詳細を表示
mmlu-college-computer-science
最高モデル: Chinchilla (few-shot, k=5)

評価指標

詳細を表示
mmlu-high-school-mathematics
最高モデル: GAL 120B (zero-shot)

評価指標

詳細を表示
mmlu-electrical-engineer
最高モデル: GAL 120B (zero-shot)

評価指標

詳細を表示
mmlu-formal-logic
最高モデル: Gopher (few-shot, k=5)

評価指標

詳細を表示
medmcqa
最高モデル: Meditron-70B (CoT + SC)

評価指標

詳細を表示
frenchmedmcqa
最高モデル: CamemBERT

評価指標

詳細を表示
mmlu-anatomy
最高モデル: Med-PaLM 2 (ER)

評価指標

詳細を表示
mmlu-abstract-algebra
最高モデル: GAL 30B (zero-shot)

評価指標

詳細を表示
mmlu-econometrics
最高モデル: Gopher (few-shot, k=5)

評価指標

詳細を表示
mmlu-high-school-computer-science
最高モデル: GAL 120B (zero-shot)

評価指標

詳細を表示
mmlu-machine-learning
最高モデル: Chinchilla (few-shot, k=5)

評価指標

詳細を表示
mmlu-college-mathematics
最高モデル: GAL 120B (zero-shot)

評価指標

詳細を表示
mmlu-astronomy
最高モデル: Chinchilla (few-shot, k=5)

評価指標

詳細を表示
indicglue-wstp-pa

評価指標

詳細を表示
mmlu-college-physics

評価指標

詳細を表示
mmlu-high-school-physics

評価指標

詳細を表示
mmlu-high-school-statistics

評価指標

詳細を表示
mmlu-clinical-knowledge

評価指標

詳細を表示
mmlu-professional-medicine

評価指標

詳細を表示
mmlu-college-medicine

評価指標

詳細を表示
big-bench-hyperbaton

評価指標

詳細を表示
big-bench-movie-recommendation

評価指標

詳細を表示
big-bench-navigate

評価指標

詳細を表示
big-bench-ruin-names

評価指標

詳細を表示
big-bench-novel-concepts

評価指標

詳細を表示
mmlu-medical-genetics

評価指標

詳細を表示