Code Generation
Liste des benchmarks
Tous les benchmarks liés à cette tâche
android-repos
Meilleur modèle: Entity Type Model
Métriques
Voir les détails
apps
Meilleur modèle: MapCoder APPS-150-cherrypicked (GPT-4)
Métriques
Voir les détails
bigcodebench-instruct
Meilleur modèle: GPT-4o-2024-05-13
Métriques
Voir les détails
codecontests
Meilleur modèle: MapCoder (GPT-4)
Métriques
Voir les détails
codexglue-codesearchnet
Meilleur modèle: Redcoder-ext
Métriques
Voir les détails
conala
Meilleur modèle: MarianCG
Métriques
Voir les détails
conala-ext
Meilleur modèle: BART W/ Mined
Métriques
Voir les détails
django
Meilleur modèle: MarianCG
Métriques
Voir les détails
floco
Meilleur modèle: FloCo-T5
Métriques
Voir les détails
humaneval
Meilleur modèle: AgentCoder (GPT-4)
Métriques
Voir les détails
livecodebench
Meilleur modèle: LPW (GPT-4o)
Métriques
Voir les détails
pecc
Meilleur modèle: Claude 3 Haiku
Métriques
Voir les détails
res-q
Meilleur modèle: QurrentOS-coder + Claude 3.5 Sonnet
Métriques
Voir les détails
shellcode-ia32
Meilleur modèle: CodeBERT
Métriques
Voir les détails
taco-topics-in-algorithmic-code-generation
Meilleur modèle: GPT-4
Métriques
Voir les détails
turbulence
Meilleur modèle: GPT-4
Métriques
Voir les détails
verilogeval
Meilleur modèle: Nexus (Claude 3.5 Sonnet)
Métriques
Voir les détails
webapp1k-react
Meilleur modèle: o1-preview
Métriques
Voir les détails
wikisql
Meilleur modèle: NL2SQL-RULE
Métriques
Voir les détails
bigcodebench-complete
Métriques
Voir les détails
concode
Métriques
Voir les détails
dseval-leetcode
Métriques
Voir les détails
mbpp
Métriques
Voir les détails
multi-source-python-code-corpus
Métriques
Voir les détails
verified-smart-contract-code-comments
Métriques
Voir les détails
webapp1k-duo-react
Métriques
Voir les détails