HyperAI超神経

Code Generation

ベンチマークリスト

このタスクに関連するすべてのベンチマーク

android-repos
最高モデル: Entity Type Model

評価指標

詳細を表示
apps
最高モデル: MapCoder APPS-150-cherrypicked (GPT-4)

評価指標

詳細を表示
bigcodebench-instruct
最高モデル: GPT-4o-2024-05-13

評価指標

詳細を表示
codecontests
最高モデル: MapCoder (GPT-4)

評価指標

詳細を表示
codexglue-codesearchnet
最高モデル: Redcoder-ext

評価指標

詳細を表示
conala
最高モデル: MarianCG

評価指標

詳細を表示
conala-ext
最高モデル: BART W/ Mined

評価指標

詳細を表示
django
最高モデル: MarianCG

評価指標

詳細を表示
floco
最高モデル: FloCo-T5

評価指標

詳細を表示
humaneval
最高モデル: AgentCoder (GPT-4)

評価指標

詳細を表示
livecodebench
最高モデル: LPW (GPT-4o)

評価指標

詳細を表示
pecc
最高モデル: Claude 3 Haiku

評価指標

詳細を表示
res-q
最高モデル: QurrentOS-coder + Claude 3.5 Sonnet

評価指標

詳細を表示
shellcode-ia32
最高モデル: CodeBERT

評価指標

詳細を表示
taco-topics-in-algorithmic-code-generation
最高モデル: GPT-4

評価指標

詳細を表示
turbulence
最高モデル: GPT-4

評価指標

詳細を表示
verilogeval
最高モデル: Nexus (Claude 3.5 Sonnet)

評価指標

詳細を表示
webapp1k-react
最高モデル: o1-preview

評価指標

詳細を表示
wikisql
最高モデル: NL2SQL-RULE

評価指標

詳細を表示
bigcodebench-complete

評価指標

詳細を表示
concode

評価指標

詳細を表示
dseval-leetcode

評価指標

詳細を表示
mbpp

評価指標

詳細を表示
multi-source-python-code-corpus

評価指標

詳細を表示
verified-smart-contract-code-comments

評価指標

詳細を表示
webapp1k-duo-react

評価指標

詳細を表示