HyperAI초신경

Robot Task Planning On Sheetcopilot

평가 지표

Pass@1

평가 결과

이 벤치마크에서 각 모델의 성능 결과

비교 표
모델 이름Pass@1
sheetagent-a-generalist-agent-for-spreadsheet61.1%
sheetcopilot-bringing-software-productivity44.3%