Language Modelling
Liste des benchmarks
Tous les benchmarks liés à cette tâche
100-sleep-nights-of-8-caregivers
Meilleur modèle: Gpt3
Métriques
Voir les détails
2000-hub5-english
Meilleur modèle: MMLU
Métriques
Voir les détails
big-bench-lite-1
Meilleur modèle: GLM-130B (3-shot)
Métriques
Voir les détails
c4
Meilleur modèle: Primer
Métriques
Voir les détails
clue-cmrc2018
Meilleur modèle: GLM-130B
Métriques
Voir les détails
clue-ocnli-50k
Meilleur modèle: GLM-130B
Métriques
Voir les détails
enwik8-dev
Meilleur modèle: Transformer-LS (small)
Métriques
Voir les détails
enwik8
Meilleur modèle: GPT-2 (48 layers, h=1600)
Métriques
Voir les détails
enwiki8
Meilleur modèle: PAR Transformer 24B
Métriques
Voir les détails
hutter-prize
Meilleur modèle: Transformer-XL + RMS dynamic eval
Métriques
Voir les détails
lambada
Meilleur modèle: GPT-3 175B (Few-Shot)
Métriques
Voir les détails
language-modeling-recommendation
Meilleur modèle: GPT2
Métriques
Voir les détails
one-billion-word
Meilleur modèle: MDLM (AR baseline)
Métriques
Voir les détails
openwebtext
Meilleur modèle: GPT2-Hermite
Métriques
Voir les détails
penn-treebank-character-level
Meilleur modèle: Mogrifier LSTM + dynamic eval
Métriques
Voir les détails
penn-treebank-word-level
Meilleur modèle: GPT-3 (Zero-Shot)
Métriques
Voir les détails
ptb
Meilleur modèle: I-DARTS
Métriques
Voir les détails
salmon
Meilleur modèle: Spirit-LM (Expr.)
Métriques
Voir les détails
stackexchange
Meilleur modèle: Gopher
Métriques
Voir les détails
text8
Meilleur modèle: GPT-2
Métriques
Voir les détails
text8-dev
Meilleur modèle: Transformer-LS (small)
Métriques
Voir les détails
the-pile
Meilleur modèle: Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)
Métriques
Voir les détails
vietmed
Meilleur modèle: Hybrid 4-gram VietMed-Train + ExtraText
Métriques
Voir les détails
wiki-40b
Meilleur modèle: FLASH-Quad-8k
Métriques
Voir les détails
wikitext-103
Meilleur modèle: RETRO (7.5B)
Métriques
Voir les détails
wikitext-2
Meilleur modèle: SparseGPT (175B, 50% Sparsity)
Métriques
Voir les détails
-5
Métriques
Voir les détails
arxiv
Métriques
Voir les détails
bookcorpus2
Métriques
Voir les détails
books3
Métriques
Voir les détails
clue-afqmc
Métriques
Voir les détails
clue-c3
Métriques
Voir les détails
clue-cmnli
Métriques
Voir les détails
clue-drcd
Métriques
Voir les détails
clue-wsc1-1
Métriques
Voir les détails
curation-corpus
Métriques
Voir les détails
dm-mathematics
Métriques
Voir les détails
fewclue-bustm
Métriques
Voir les détails
fewclue-chid-fc
Métriques
Voir les détails
fewclue-cluewsc-fc
Métriques
Voir les détails
fewclue-eprstmt
Métriques
Voir les détails
fewclue-ocnli-fc
Métriques
Voir les détails
freelaw
Métriques
Voir les détails
github
Métriques
Voir les détails
gutenberg-pg-19
Métriques
Voir les détails
hackernews
Métriques
Voir les détails
nih-exporter
Métriques
Voir les détails
opensubtitles-1
Métriques
Voir les détails
openwebtext2
Métriques
Voir les détails
philpapers
Métriques
Voir les détails
pile-cc
Métriques
Voir les détails
pubmed-abstracts
Métriques
Voir les détails
pubmed-central
Métriques
Voir les détails
ubuntu-irc
Métriques
Voir les détails
uspto-backgrounds
Métriques
Voir les détails