Code Generation
ベンチマークリスト
このタスクに関連するすべてのベンチマーク
android-repos
最高モデル: Entity Type Model
評価指標
詳細を表示
apps
最高モデル: MapCoder APPS-150-cherrypicked (GPT-4)
評価指標
詳細を表示
bigcodebench-instruct
最高モデル: GPT-4o-2024-05-13
評価指標
詳細を表示
codecontests
最高モデル: MapCoder (GPT-4)
評価指標
詳細を表示
codexglue-codesearchnet
最高モデル: Redcoder-ext
評価指標
詳細を表示
conala
最高モデル: MarianCG
評価指標
詳細を表示
conala-ext
最高モデル: BART W/ Mined
評価指標
詳細を表示
django
最高モデル: MarianCG
評価指標
詳細を表示
floco
最高モデル: FloCo-T5
評価指標
詳細を表示
humaneval
最高モデル: AgentCoder (GPT-4)
評価指標
詳細を表示
livecodebench
最高モデル: LPW (GPT-4o)
評価指標
詳細を表示
pecc
最高モデル: Claude 3 Haiku
評価指標
詳細を表示
res-q
最高モデル: QurrentOS-coder + Claude 3.5 Sonnet
評価指標
詳細を表示
shellcode-ia32
最高モデル: CodeBERT
評価指標
詳細を表示
taco-topics-in-algorithmic-code-generation
最高モデル: GPT-4
評価指標
詳細を表示
turbulence
最高モデル: GPT-4
評価指標
詳細を表示
verilogeval
最高モデル: Nexus (Claude 3.5 Sonnet)
評価指標
詳細を表示
webapp1k-react
最高モデル: o1-preview
評価指標
詳細を表示
wikisql
最高モデル: NL2SQL-RULE
評価指標
詳細を表示
bigcodebench-complete
評価指標
詳細を表示
concode
評価指標
詳細を表示
dseval-leetcode
評価指標
詳細を表示
mbpp
評価指標
詳細を表示
multi-source-python-code-corpus
評価指標
詳細を表示
verified-smart-contract-code-comments
評価指標
詳細を表示
webapp1k-duo-react
評価指標
詳細を表示