Search for a command to run...
Jenseits statischer Leaderboards: Prädiktive Validität für die Evaluation von LLM Agents