Language Modelling
벤치마크 목록
해당 작업에 관련된 모든 벤치마크 목록
100-sleep-nights-of-8-caregivers
최고 모델: Gpt3
평가 지표
세부 정보 보기
2000-hub5-english
최고 모델: MMLU
평가 지표
세부 정보 보기
big-bench-lite-1
최고 모델: GLM-130B (3-shot)
평가 지표
세부 정보 보기
c4
최고 모델: Primer
평가 지표
세부 정보 보기
clue-cmrc2018
최고 모델: GLM-130B
평가 지표
세부 정보 보기
clue-ocnli-50k
최고 모델: GLM-130B
평가 지표
세부 정보 보기
enwik8-dev
최고 모델: Transformer-LS (small)
평가 지표
세부 정보 보기
enwik8
최고 모델: GPT-2 (48 layers, h=1600)
평가 지표
세부 정보 보기
enwiki8
최고 모델: PAR Transformer 24B
평가 지표
세부 정보 보기
hutter-prize
최고 모델: Transformer-XL + RMS dynamic eval
평가 지표
세부 정보 보기
lambada
최고 모델: GPT-3 175B (Few-Shot)
평가 지표
세부 정보 보기
language-modeling-recommendation
최고 모델: GPT2
평가 지표
세부 정보 보기
one-billion-word
최고 모델: MDLM (AR baseline)
평가 지표
세부 정보 보기
openwebtext
최고 모델: GPT2-Hermite
평가 지표
세부 정보 보기
penn-treebank-character-level
최고 모델: Mogrifier LSTM + dynamic eval
평가 지표
세부 정보 보기
penn-treebank-word-level
최고 모델: GPT-3 (Zero-Shot)
평가 지표
세부 정보 보기
ptb
최고 모델: I-DARTS
평가 지표
세부 정보 보기
salmon
최고 모델: Spirit-LM (Expr.)
평가 지표
세부 정보 보기
stackexchange
최고 모델: Gopher
평가 지표
세부 정보 보기
text8
최고 모델: GPT-2
평가 지표
세부 정보 보기
text8-dev
최고 모델: Transformer-LS (small)
평가 지표
세부 정보 보기
the-pile
최고 모델: Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)
평가 지표
세부 정보 보기
vietmed
최고 모델: Hybrid 4-gram VietMed-Train + ExtraText
평가 지표
세부 정보 보기
wiki-40b
최고 모델: FLASH-Quad-8k
평가 지표
세부 정보 보기
wikitext-103
최고 모델: RETRO (7.5B)
평가 지표
세부 정보 보기
wikitext-2
최고 모델: SparseGPT (175B, 50% Sparsity)
평가 지표
세부 정보 보기
-5
평가 지표
세부 정보 보기
arxiv
평가 지표
세부 정보 보기
bookcorpus2
평가 지표
세부 정보 보기
books3
평가 지표
세부 정보 보기
clue-afqmc
평가 지표
세부 정보 보기
clue-c3
평가 지표
세부 정보 보기
clue-cmnli
평가 지표
세부 정보 보기
clue-drcd
평가 지표
세부 정보 보기
clue-wsc1-1
평가 지표
세부 정보 보기
curation-corpus
평가 지표
세부 정보 보기
dm-mathematics
평가 지표
세부 정보 보기
fewclue-bustm
평가 지표
세부 정보 보기
fewclue-chid-fc
평가 지표
세부 정보 보기
fewclue-cluewsc-fc
평가 지표
세부 정보 보기
fewclue-eprstmt
평가 지표
세부 정보 보기
fewclue-ocnli-fc
평가 지표
세부 정보 보기
freelaw
평가 지표
세부 정보 보기
github
평가 지표
세부 정보 보기
gutenberg-pg-19
평가 지표
세부 정보 보기
hackernews
평가 지표
세부 정보 보기
nih-exporter
평가 지표
세부 정보 보기
opensubtitles-1
평가 지표
세부 정보 보기
openwebtext2
평가 지표
세부 정보 보기
philpapers
평가 지표
세부 정보 보기
pile-cc
평가 지표
세부 정보 보기
pubmed-abstracts
평가 지표
세부 정보 보기
pubmed-central
평가 지표
세부 정보 보기
ubuntu-irc
평가 지표
세부 정보 보기
uspto-backgrounds
평가 지표
세부 정보 보기