Home News Papers Tutorials Datasets Wiki SOTA LLM Models GPU Leaderboard Events

English

Code Generation On Res Q

Metrics

pass@1

Results

Performance results of various models on this benchmark

Model Name	pass@1	Paper Title	Repository
QurrentOS-coder + Gemini 1.5 Pro	30.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + Claude 3.5 Sonnet	58.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + Llama 3 70b	20.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + Qwen-72B-Instruct	18.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + GPT-4	30.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + Claude 3 Opus	36.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + GPT-4o	46.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + DeepSeek-Coder-V2	29.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + GPT-4 Turbo	37.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale

0 of 9 row(s) selected.