Language Modelling
基准测试列表
该任务相关的所有基准测试列表
100-sleep-nights-of-8-caregivers
最佳模型: Gpt3
评估指标
查看详情
2000-hub5-english
最佳模型: MMLU
评估指标
查看详情
big-bench-lite-1
最佳模型: GLM-130B (3-shot)
评估指标
查看详情
c4
最佳模型: Primer
评估指标
查看详情
clue-cmrc2018
最佳模型: GLM-130B
评估指标
查看详情
clue-ocnli-50k
最佳模型: GLM-130B
评估指标
查看详情
enwik8-dev
最佳模型: Transformer-LS (small)
评估指标
查看详情
enwik8
最佳模型: GPT-2 (48 layers, h=1600)
评估指标
查看详情
enwiki8
最佳模型: PAR Transformer 24B
评估指标
查看详情
hutter-prize
最佳模型: Transformer-XL + RMS dynamic eval
评估指标
查看详情
lambada
最佳模型: GPT-3 175B (Few-Shot)
评估指标
查看详情
language-modeling-recommendation
最佳模型: GPT2
评估指标
查看详情
one-billion-word
最佳模型: MDLM (AR baseline)
评估指标
查看详情
openwebtext
最佳模型: GPT2-Hermite
评估指标
查看详情
penn-treebank-character-level
最佳模型: Mogrifier LSTM + dynamic eval
评估指标
查看详情
penn-treebank-word-level
最佳模型: GPT-3 (Zero-Shot)
评估指标
查看详情
ptb
最佳模型: I-DARTS
评估指标
查看详情
salmon
最佳模型: Spirit-LM (Expr.)
评估指标
查看详情
stackexchange
最佳模型: Gopher
评估指标
查看详情
text8
最佳模型: GPT-2
评估指标
查看详情
text8-dev
最佳模型: Transformer-LS (small)
评估指标
查看详情
the-pile
最佳模型: Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)
评估指标
查看详情
vietmed
最佳模型: Hybrid 4-gram VietMed-Train + ExtraText
评估指标
查看详情
wiki-40b
最佳模型: FLASH-Quad-8k
评估指标
查看详情
wikitext-103
最佳模型: RETRO (7.5B)
评估指标
查看详情
wikitext-2
最佳模型: SparseGPT (175B, 50% Sparsity)
评估指标
查看详情
-5
评估指标
查看详情
arxiv
评估指标
查看详情
bookcorpus2
评估指标
查看详情
books3
评估指标
查看详情
clue-afqmc
评估指标
查看详情
clue-c3
评估指标
查看详情
clue-cmnli
评估指标
查看详情
clue-drcd
评估指标
查看详情
clue-wsc1-1
评估指标
查看详情
curation-corpus
评估指标
查看详情
dm-mathematics
评估指标
查看详情
fewclue-bustm
评估指标
查看详情
fewclue-chid-fc
评估指标
查看详情
fewclue-cluewsc-fc
评估指标
查看详情
fewclue-eprstmt
评估指标
查看详情
fewclue-ocnli-fc
评估指标
查看详情
freelaw
评估指标
查看详情
github
评估指标
查看详情
gutenberg-pg-19
评估指标
查看详情
hackernews
评估指标
查看详情
nih-exporter
评估指标
查看详情
opensubtitles-1
评估指标
查看详情
openwebtext2
评估指标
查看详情
philpapers
评估指标
查看详情
pile-cc
评估指标
查看详情
pubmed-abstracts
评估指标
查看详情
pubmed-central
评估指标
查看详情
ubuntu-irc
评估指标
查看详情
uspto-backgrounds
评估指标
查看详情