Math Word Problem Solving
ベンチマークリスト
このタスクに関連するすべてのベンチマーク
asdiv-a
最高モデル: ATHENA (roberta-large)
評価指標
詳細を表示
gsm-plus
最高モデル: GPT-4
評価指標
詳細を表示
math-minival
最高モデル: Process Supervision (GPT-4)
評価指標
詳細を表示
math23k
最高モデル: Roberta-DeductReasoner
評価指標
詳細を表示
mathqa
最高モデル: ELASTIC (RoBERTa-large)
評価指標
詳細を表示
mawps
最高モデル: OpenMath-CodeLlama-70B (w/ code)
評価指標
詳細を表示
paramawps
最高モデル: DeBERTa (VM)
評価指標
詳細を表示
pen
最高モデル: EPT-X
評価指標
詳細を表示
svamp
最高モデル: GPT-4 (Teaching-Inspired)
評価指標
詳細を表示
svamp-1-n
最高モデル: ATHENA (roberta-large)
評価指標
詳細を表示
alg514
評価指標
詳細を表示
draw-1k
評価指標
詳細を表示
math
評価指標
詳細を表示