Robot Task Planning On Sheetcopilot
Metriken
Pass@1
Ergebnisse
Leistungsergebnisse verschiedener Modelle zu diesem Benchmark
Vergleichstabelle
Modellname | Pass@1 |
---|---|
sheetagent-a-generalist-agent-for-spreadsheet | 61.1% |
sheetcopilot-bringing-software-productivity | 44.3% |