HyperAI초신경

Language Modelling

벤치마크 목록

해당 작업에 관련된 모든 벤치마크 목록

100-sleep-nights-of-8-caregivers
최고 모델: Gpt3

평가 지표

세부 정보 보기
2000-hub5-english
최고 모델: MMLU

평가 지표

세부 정보 보기
big-bench-lite-1
최고 모델: GLM-130B (3-shot)

평가 지표

세부 정보 보기
c4
최고 모델: Primer

평가 지표

세부 정보 보기
clue-cmrc2018
최고 모델: GLM-130B

평가 지표

세부 정보 보기
clue-ocnli-50k
최고 모델: GLM-130B

평가 지표

세부 정보 보기
enwik8-dev
최고 모델: Transformer-LS (small)

평가 지표

세부 정보 보기
enwik8
최고 모델: GPT-2 (48 layers, h=1600)

평가 지표

세부 정보 보기
enwiki8
최고 모델: PAR Transformer 24B

평가 지표

세부 정보 보기
hutter-prize
최고 모델: Transformer-XL + RMS dynamic eval

평가 지표

세부 정보 보기
lambada
최고 모델: GPT-3 175B (Few-Shot)

평가 지표

세부 정보 보기
language-modeling-recommendation
최고 모델: GPT2

평가 지표

세부 정보 보기
one-billion-word
최고 모델: MDLM (AR baseline)

평가 지표

세부 정보 보기
openwebtext
최고 모델: GPT2-Hermite

평가 지표

세부 정보 보기
penn-treebank-character-level
최고 모델: Mogrifier LSTM + dynamic eval

평가 지표

세부 정보 보기
penn-treebank-word-level
최고 모델: GPT-3 (Zero-Shot)

평가 지표

세부 정보 보기
ptb
최고 모델: I-DARTS

평가 지표

세부 정보 보기
salmon
최고 모델: Spirit-LM (Expr.)

평가 지표

세부 정보 보기
stackexchange
최고 모델: Gopher

평가 지표

세부 정보 보기
text8
최고 모델: GPT-2

평가 지표

세부 정보 보기
text8-dev
최고 모델: Transformer-LS (small)

평가 지표

세부 정보 보기
the-pile
최고 모델: Test-Time Fine-Tuning with SIFT + Llama-3.2 (3B)

평가 지표

세부 정보 보기
vietmed
최고 모델: Hybrid 4-gram VietMed-Train + ExtraText

평가 지표

세부 정보 보기
wiki-40b
최고 모델: FLASH-Quad-8k

평가 지표

세부 정보 보기
wikitext-103
최고 모델: RETRO (7.5B)

평가 지표

세부 정보 보기
wikitext-2
최고 모델: SparseGPT (175B, 50% Sparsity)

평가 지표

세부 정보 보기
-5

평가 지표

세부 정보 보기
arxiv

평가 지표

세부 정보 보기
bookcorpus2

평가 지표

세부 정보 보기
books3

평가 지표

세부 정보 보기
clue-afqmc

평가 지표

세부 정보 보기
clue-c3

평가 지표

세부 정보 보기
clue-cmnli

평가 지표

세부 정보 보기
clue-drcd

평가 지표

세부 정보 보기
clue-wsc1-1

평가 지표

세부 정보 보기
curation-corpus

평가 지표

세부 정보 보기
dm-mathematics

평가 지표

세부 정보 보기
fewclue-bustm

평가 지표

세부 정보 보기
fewclue-chid-fc

평가 지표

세부 정보 보기
fewclue-cluewsc-fc

평가 지표

세부 정보 보기
fewclue-eprstmt

평가 지표

세부 정보 보기
fewclue-ocnli-fc

평가 지표

세부 정보 보기
freelaw

평가 지표

세부 정보 보기
github

평가 지표

세부 정보 보기
gutenberg-pg-19

평가 지표

세부 정보 보기
hackernews

평가 지표

세부 정보 보기
nih-exporter

평가 지표

세부 정보 보기
opensubtitles-1

평가 지표

세부 정보 보기
openwebtext2

평가 지표

세부 정보 보기
philpapers

평가 지표

세부 정보 보기
pile-cc

평가 지표

세부 정보 보기
pubmed-abstracts

평가 지표

세부 정보 보기
pubmed-central

평가 지표

세부 정보 보기
ubuntu-irc

평가 지표

세부 정보 보기
uspto-backgrounds

평가 지표

세부 정보 보기