Text Generation
ベンチマークリスト
このタスクに関連するすべてのベンチマーク
chinese-poems
最高モデル: RankGAN
評価指標
詳細を表示
cmu-se
最高モデル: STWGAN-GP
評価指標
詳細を表示
cnn-daily-mail-1
最高モデル: PALM
評価指標
詳細を表示
coco-captions
最高モデル: LeakGAN
評価指標
詳細を表示
commongen
最高モデル: UniLM
評価指標
詳細を表示
emnlp2017-wmt
最高モデル: LeakGAN
評価指標
詳細を表示
harmfulqa
最高モデル: GPT-4
評価指標
詳細を表示
one-billion-word
最高モデル: WGANGP + DGflow
評価指標
詳細を表示
redial
最高モデル: UniCRS
評価指標
詳細を表示
rocstories
最高モデル: Beam search + A*esque (sample)
評価指標
詳細を表示
yahoo-questions
最高モデル: Aggressive VAE
評価指標
詳細を表示
adgen
評価指標
詳細を表示
ai2-reasoning-challenge-25-shot
評価指標
詳細を表示
ai2-reasoning-challenge-tr
評価指標
詳細を表示
alpaca-eval-pt
評価指標
詳細を表示
alpacaeval
評価指標
詳細を表示
arc-challenge-pt
評価指標
詳細を表示
assin2-rte
評価指標
詳細を表示
assin2-sts
評価指標
詳細を表示
bbh-3-shot
評価指標
詳細を表示
bluex-no-images
評価指標
詳細を表示
calame-pt
評価指標
詳細を表示
censorship-0-shot
評価指標
詳細を表示
creativity-0-shot
評価指標
詳細を表示
crimestats
評価指標
詳細を表示
csl
評価指標
詳細を表示
czech-restaurant-information
評価指標
詳細を表示
dailydialog
評価指標
詳細を表示
dart
評価指標
詳細を表示
drop-3-shot
評価指標
詳細を表示
enem-challenge-no-images
評価指標
詳細を表示
faquad-nli
評価指標
詳細を表示
gpqa-0-shot
評価指標
詳細を表示
gsm8k-5-shot
評価指標
詳細を表示
gsm8k-tr
評価指標
詳細を表示
hatebr-binary
評価指標
詳細を表示
hellaswag-10-shot
評価指標
詳細を表示
hellaswag-pt
評価指標
詳細を表示
hellaswag-tr
評価指標
詳細を表示
humanness-0-shot
評価指標
詳細を表示
ifeval-0-shot
評価指標
詳細を表示
internet
評価指標
詳細を表示
lambada-pt
評価指標
詳細を表示
lcsts
評価指標
詳細を表示
ldc2016e25
評価指標
詳細を表示
math-lvl-5-4-shot
評価指標
詳細を表示
mmlu-5-shot
評価指標
詳細を表示
mmlu-pro-5-shot
評価指標
詳細を表示
mmlu-tr
評価指標
詳細を表示
mt-bench
評価指標
詳細を表示
mt-bench-jp
評価指標
詳細を表示
musr-0-shot
評価指標
詳細を表示
oab-exams
評価指標
詳細を表示
open-mindedness-0-shot
評価指標
詳細を表示
openwebtext
評価指標
詳細を表示
polcontro
評価指標
詳細を表示
pt-hate-speech-binary
評価指標
詳細を表示
sciq
評価指標
詳細を表示
stories-jokes
評価指標
詳細を表示
talking-0-shot
評価指標
詳細を表示
truthfulqa
評価指標
詳細を表示
truthfulqa-0-shot
評価指標
詳細を表示
truthfulqa-pt
評価指標
詳細を表示
truthfulqa-tr
評価指標
詳細を表示
tweetsentbr
評価指標
詳細を表示
unruly
評価指標
詳細を表示
w-10
評価指標
詳細を表示
wikitext-103
評価指標
詳細を表示
winogrande-5-shot
評価指標
詳細を表示
winogrande-tr
評価指標
詳細を表示
world-knowledge-0-shot
評価指標
詳細を表示