Search for a command to run...
SkillsBench: Benchmarking, wie gut Agenten-Fähigkeiten über verschiedene Aufgaben hinweg funktionieren