Command Palette
Search for a command to run...
AgentNet-Desktop-Operation-Task-Datensatz
Datum
Paper-URL
Lizenz
MIT
AgentNet ist der erste groß angelegte, Desktop-Computer-basierte Datensatz für intelligente Agenten-Trajektorien, der 2025 vom XLANG-Labor der Universität Hongkong in Zusammenarbeit mit Moonshot AI, der Stanford University und anderen Institutionen veröffentlicht wurde. Die zugehörigen Ergebnisse der Studie sind:OPENCUA: Offene Grundlagen für Computer-Use-Agenten“, dessen Ziel die Unterstützung und Evaluierung plattformübergreifender GUI-Operationsagenten und Vision-Language-Action-Modelle (VLA) ist.
Dieser Datensatz enthält 22,6.000 manuell annotierte Computernutzungs-Task-Traces für Windows, macOS und Ubuntu sowie über 200 Anwendungen und Websites. Die Szenarien lassen sich in vier Kategorien einteilen: Büro, Beruf, Alltag und System. Er eignet sich für das Training und die Evaluierung von Desktop-Automatisierung, Multi-Application-Prozessen und plattformübergreifenden Agenten.
Datenstrukturen und Felder
Jede Probe enthält:
- Aufgabenmetadaten: Aufgabennummer (task_id), Anweisung (Anweisung);
- Qualitätsbewertung: Vollständigkeit, Konsistenz, Effizienz und Schwierigkeit;
- Zusammenfassende Beschreibung: natural_language_task, actual_task;
- Trajektorien-Array: traj (in chronologischer Reihenfolge aufgezeichnete Operationsschritte).
Flugbahnschritte (traj)Struktur:
- Jeder Schritt enthält Index-, Bild- (Screenshot) und Wertobjekte:
- Beobachtung (Szenenbeobachtung), Gedanke (Denken/Planen), Aktion (Aktion in natürlicher Sprache), Code (ausführbarer Code, wie z. B. PyAutoGUI), letzter_Schritt_richtig, letzter_Schritt_redundant und Reflexion.

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.