Language Modelling
ベンチマークリスト
このタスクに関連するすべてのベンチマーク
100-sleep-nights-of-8-caregivers
最高モデル: Gpt3
評価指標
詳細を表示
2000-hub5-english
最高モデル: MMLU
評価指標
詳細を表示
big-bench-lite-1
最高モデル: GLM-130B (3-shot)
評価指標
詳細を表示
c4
最高モデル: Primer
評価指標
詳細を表示
clue-cmrc2018
最高モデル: GLM-130B
評価指標
詳細を表示
clue-ocnli-50k
最高モデル: GLM-130B
評価指標
詳細を表示
enwik8-dev
最高モデル: Transformer-LS (small)
評価指標
詳細を表示
enwik8
最高モデル: GPT-2 (48 layers, h=1600)
評価指標
詳細を表示
enwiki8
最高モデル: PAR Transformer 24B
評価指標
詳細を表示
hutter-prize
最高モデル: Transformer-XL + RMS dynamic eval
評価指標
詳細を表示
lambada
最高モデル: GPT-3 175B (Few-Shot)
評価指標
詳細を表示
language-modeling-recommendation
最高モデル: GPT2
評価指標
詳細を表示
one-billion-word
最高モデル: MDLM (AR baseline)
評価指標
詳細を表示
openwebtext
最高モデル: GPT2-Hermite
評価指標
詳細を表示
penn-treebank-character-level
最高モデル: Mogrifier LSTM + dynamic eval
評価指標
詳細を表示
penn-treebank-word-level
最高モデル: GPT-3 (Zero-Shot)
評価指標
詳細を表示
ptb
最高モデル: I-DARTS
評価指標
詳細を表示
salmon
最高モデル: Spirit-LM (Expr.)
評価指標
詳細を表示
stackexchange
最高モデル: Gopher
評価指標
詳細を表示
text8
最高モデル: GPT-2
評価指標
詳細を表示
text8-dev
最高モデル: Transformer-LS (small)
評価指標
詳細を表示
the-pile
最高モデル: Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)
評価指標
詳細を表示
vietmed
最高モデル: Hybrid 4-gram VietMed-Train + ExtraText
評価指標
詳細を表示
wiki-40b
最高モデル: FLASH-Quad-8k
評価指標
詳細を表示
wikitext-103
最高モデル: RETRO (7.5B)
評価指標
詳細を表示
wikitext-2
最高モデル: SparseGPT (175B, 50% Sparsity)
評価指標
詳細を表示
-5
評価指標
詳細を表示
arxiv
評価指標
詳細を表示
bookcorpus2
評価指標
詳細を表示
books3
評価指標
詳細を表示
clue-afqmc
評価指標
詳細を表示
clue-c3
評価指標
詳細を表示
clue-cmnli
評価指標
詳細を表示
clue-drcd
評価指標
詳細を表示
clue-wsc1-1
評価指標
詳細を表示
curation-corpus
評価指標
詳細を表示
dm-mathematics
評価指標
詳細を表示
fewclue-bustm
評価指標
詳細を表示
fewclue-chid-fc
評価指標
詳細を表示
fewclue-cluewsc-fc
評価指標
詳細を表示
fewclue-eprstmt
評価指標
詳細を表示
fewclue-ocnli-fc
評価指標
詳細を表示
freelaw
評価指標
詳細を表示
github
評価指標
詳細を表示
gutenberg-pg-19
評価指標
詳細を表示
hackernews
評価指標
詳細を表示
nih-exporter
評価指標
詳細を表示
opensubtitles-1
評価指標
詳細を表示
openwebtext2
評価指標
詳細を表示
philpapers
評価指標
詳細を表示
pile-cc
評価指標
詳細を表示
pubmed-abstracts
評価指標
詳細を表示
pubmed-central
評価指標
詳細を表示
ubuntu-irc
評価指標
詳細を表示
uspto-backgrounds
評価指標
詳細を表示