HyperAI超神経

Language Modelling

ベンチマークリスト

このタスクに関連するすべてのベンチマーク

100-sleep-nights-of-8-caregivers
最高モデル: Gpt3

評価指標

詳細を表示
2000-hub5-english
最高モデル: MMLU

評価指標

詳細を表示
big-bench-lite-1
最高モデル: GLM-130B (3-shot)

評価指標

詳細を表示
c4
最高モデル: Primer

評価指標

詳細を表示
clue-cmrc2018
最高モデル: GLM-130B

評価指標

詳細を表示
clue-ocnli-50k
最高モデル: GLM-130B

評価指標

詳細を表示
enwik8-dev
最高モデル: Transformer-LS (small)

評価指標

詳細を表示
enwik8
最高モデル: GPT-2 (48 layers, h=1600)

評価指標

詳細を表示
enwiki8
最高モデル: PAR Transformer 24B

評価指標

詳細を表示
hutter-prize
最高モデル: Transformer-XL + RMS dynamic eval

評価指標

詳細を表示
lambada
最高モデル: GPT-3 175B (Few-Shot)

評価指標

詳細を表示
language-modeling-recommendation
最高モデル: GPT2

評価指標

詳細を表示
one-billion-word
最高モデル: MDLM (AR baseline)

評価指標

詳細を表示
openwebtext
最高モデル: GPT2-Hermite

評価指標

詳細を表示
penn-treebank-character-level
最高モデル: Mogrifier LSTM + dynamic eval

評価指標

詳細を表示
penn-treebank-word-level
最高モデル: GPT-3 (Zero-Shot)

評価指標

詳細を表示
ptb
最高モデル: I-DARTS

評価指標

詳細を表示
salmon
最高モデル: Spirit-LM (Expr.)

評価指標

詳細を表示
stackexchange
最高モデル: Gopher

評価指標

詳細を表示
text8
最高モデル: GPT-2

評価指標

詳細を表示
text8-dev
最高モデル: Transformer-LS (small)

評価指標

詳細を表示
the-pile
最高モデル: Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)

評価指標

詳細を表示
vietmed
最高モデル: Hybrid 4-gram VietMed-Train + ExtraText

評価指標

詳細を表示
wiki-40b
最高モデル: FLASH-Quad-8k

評価指標

詳細を表示
wikitext-103
最高モデル: RETRO (7.5B)

評価指標

詳細を表示
wikitext-2
最高モデル: SparseGPT (175B, 50% Sparsity)

評価指標

詳細を表示
-5

評価指標

詳細を表示
arxiv

評価指標

詳細を表示
bookcorpus2

評価指標

詳細を表示
books3

評価指標

詳細を表示
clue-afqmc

評価指標

詳細を表示
clue-c3

評価指標

詳細を表示
clue-cmnli

評価指標

詳細を表示
clue-drcd

評価指標

詳細を表示
clue-wsc1-1

評価指標

詳細を表示
curation-corpus

評価指標

詳細を表示
dm-mathematics

評価指標

詳細を表示
fewclue-bustm

評価指標

詳細を表示
fewclue-chid-fc

評価指標

詳細を表示
fewclue-cluewsc-fc

評価指標

詳細を表示
fewclue-eprstmt

評価指標

詳細を表示
fewclue-ocnli-fc

評価指標

詳細を表示
freelaw

評価指標

詳細を表示
github

評価指標

詳細を表示
gutenberg-pg-19

評価指標

詳細を表示
hackernews

評価指標

詳細を表示
nih-exporter

評価指標

詳細を表示
opensubtitles-1

評価指標

詳細を表示
openwebtext2

評価指標

詳細を表示
philpapers

評価指標

詳細を表示
pile-cc

評価指標

詳細を表示
pubmed-abstracts

評価指標

詳細を表示
pubmed-central

評価指標

詳細を表示
ubuntu-irc

評価指標

詳細を表示
uspto-backgrounds

評価指標

詳細を表示