HyperAI초신경

홈 뉴스 연구 논문 튜토리얼 데이터셋 백과사전 SOTA LLM 모델 GPU 랭킹 컨퍼런스

한국어

HyperAI초신경

Code Generation On Res Q

평가 지표

pass@1

평가 결과

이 벤치마크에서 각 모델의 성능 결과

모델 이름	pass@1	Paper Title	Repository
QurrentOS-coder + Gemini 1.5 Pro	30.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + Claude 3.5 Sonnet	58.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + Llama 3 70b	20.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + Qwen-72B-Instruct	18.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + GPT-4	30.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + Claude 3 Opus	36.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + GPT-4o	46.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + DeepSeek-Coder-V2	29.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale
QurrentOS-coder + GPT-4 Turbo	37.0	RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale

0 of 9 row(s) selected.