HyperAIHyperAI

Command Palette

Search for a command to run...

OS-MAP: Wie weit können Computer nutzende Agenten in Breite und Tiefe gehen?

Xuetian Chen Yinghao Chen Xinfeng Yuan Zhuo Peng Lu Chen Yuekeng Li et al

Zusammenfassung

Agenten, die Computer nutzen, haben ein starkes Potenzial gezeigt, die menschliche Produktivität zu steigern und neue Anwendungsformen über verschiedene Plattformen hinweg zu ermöglichen. Obwohl in jüngster Zeit Fortschritte zu nutzbaren Anwendungen geführt haben, berücksichtigen bestehende Benchmarks nicht die interne Aufgabenheterogenität und die entsprechenden Agentenfähigkeiten sowie deren Ausrichtung auf tatsächliche Nutzeranforderungen – was sowohl die gezielte Entwicklung von Fähigkeiten als auch die zuverlässige Umsetzung von Forschungsergebnissen in praktische Anwendungen behindert. Um diese Lücke zu schließen, präsentieren wir OS-MAP, einen Benchmark für die tägliche Automatisierung von Computer-Nutzung, der seine 416 realistischen Aufgaben über 15 Anwendungen entlang zweier Schlüsseldimensionen strukturiert: einer fünfstufigen Taxonomie der Automatisierung und einer Generalisierungsspanne, die aus einer echten Nutzeranforderungshierarchie abgeleitet wird. Um eine detaillierte Analyse der erforderlichen Fähigkeiten und deren Ausrichtung auf reale Szenarien zu ermöglichen, bewertet OS-MAP Agenten entlang zweier Dimensionen: der Automatisierungsstufe entlang der fünfstufigen Taxonomie und der Generalisierungsspanne entlang der Anforderungshierarchie. Diese Gestaltung erfasst unterschiedliche Stufen der erforderlichen Agentenautonomie und Generalisierbarkeit und bildet eine Leistungs-Generalisierungsbewertungsmatrix für eine strukturierte und umfassende Bewertung. Experimente zeigen, dass selbst State-of-the-Art-Agenten mit VLM-Backbones Schwierigkeiten mit höherstufigen Aufgaben haben, die Perzeption, Reasoning und Koordination beinhalten – was die Notwendigkeit unterstreicht, die aktuellen Stärken und Grenzen besser zu verstehen, um die zukünftige Entwicklung und Anwendung von Computer nutzenden Agenten voranzutreiben. Alle Quellcodes, Umgebungen, Baselines und Daten sind öffentlich unter der folgenden URL zugänglich: this https URL.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp