HyperAI

Code Generation On Res Q

Métriques

pass@1

Résultats

Résultats de performance de divers modèles sur ce benchmark

Tableau comparatif
Nom du modèlepass@1
res-q-evaluating-code-editing-large-language30.0
res-q-evaluating-code-editing-large-language58.0
res-q-evaluating-code-editing-large-language20.0
res-q-evaluating-code-editing-large-language18.0
res-q-evaluating-code-editing-large-language30.0
res-q-evaluating-code-editing-large-language36.0
res-q-evaluating-code-editing-large-language46.0
res-q-evaluating-code-editing-large-language29.0
res-q-evaluating-code-editing-large-language37.0