OS-MAP: Wie weit können Computer nutzende Agenten in Breite und Tiefe gehen?

Agenten, die Computer nutzen, haben ein starkes Potenzial gezeigt, die menschliche Produktivität zu steigern und neue Anwendungsformen über verschiedene Plattformen hinweg zu ermöglichen. Obwohl in jüngster Zeit Fortschritte zu nutzbaren Anwendungen geführt haben, berücksichtigen bestehende Benchmarks nicht die interne Aufgabenheterogenität und die entsprechenden Agentenfähigkeiten sowie deren Ausrichtung auf tatsächliche Nutzeranforderungen – was sowohl die gezielte Entwicklung von Fähigkeiten als auch die zuverlässige Umsetzung von Forschungsergebnissen in praktische Anwendungen behindert. Um diese Lücke zu schließen, präsentieren wir OS-MAP, einen Benchmark für die tägliche Automatisierung von Computer-Nutzung, der seine 416 realistischen Aufgaben über 15 Anwendungen entlang zweier Schlüsseldimensionen strukturiert: einer fünfstufigen Taxonomie der Automatisierung und einer Generalisierungsspanne, die aus einer echten Nutzeranforderungshierarchie abgeleitet wird. Um eine detaillierte Analyse der erforderlichen Fähigkeiten und deren Ausrichtung auf reale Szenarien zu ermöglichen, bewertet OS-MAP Agenten entlang zweier Dimensionen: der Automatisierungsstufe entlang der fünfstufigen Taxonomie und der Generalisierungsspanne entlang der Anforderungshierarchie. Diese Gestaltung erfasst unterschiedliche Stufen der erforderlichen Agentenautonomie und Generalisierbarkeit und bildet eine Leistungs-Generalisierungsbewertungsmatrix für eine strukturierte und umfassende Bewertung. Experimente zeigen, dass selbst State-of-the-Art-Agenten mit VLM-Backbones Schwierigkeiten mit höherstufigen Aufgaben haben, die Perzeption, Reasoning und Koordination beinhalten – was die Notwendigkeit unterstreicht, die aktuellen Stärken und Grenzen besser zu verstehen, um die zukünftige Entwicklung und Anwendung von Computer nutzenden Agenten voranzutreiben. Alle Quellcodes, Umgebungen, Baselines und Daten sind öffentlich unter der folgenden URL zugänglich: this https URL.