Command Palette
Search for a command to run...
VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

Abstract
Die Ausbildung von Computer-Verwendungs-Agenten erfordert eine große Menge an GUI-Interaktionsdaten, doch die manuelle Annotation von Aktionstrajektorien in großem Maßstab ist prohibitiv teuer. Wir präsentieren VideoAgentTrek, eine skalierbare Pipeline, die automatisch Trainingsdaten aus öffentlich verfügbaren, web-skaligen Bildschirmaufnahmen gewinnt und somit die Notwendigkeit manueller Annotationen eliminiert. Unser Ansatz adressiert eine zentrale Herausforderung: Rohvideos enthalten implizite Demonstrationen, verfügen jedoch über keine expliziten Aktionsetiketten. Um dies zu lösen, entwickeln wir Video2Action, ein inverses-Dynamik-Modul (IDM) mit zwei Komponenten: (1) einem Video-Grundmodell, das GUI-Aktionen mit präzisen zeitlichen Grenzen und kontextueller Relevanz erkennt und lokalisiert, und (2) einem Aktion-Inhalt-Erkennungsmodul, das strukturierte Parameter wie Klickkoordinaten und eingegebene Texte mit hoher Genauigkeit extrahiert. Anwendung auf 39.000 YouTube-Tutorial-Videos führt automatisch zu 1,52 Millionen Interaktions-Schritten. Wir nutzen diese Daten durch fortgesetzte Vortrainierung gefolgt von überwachtem Feinabstimmen. Auf OSWorld-Verified steigert sich die Erfolgsrate bei Aufgaben von 9,3 % (SFT-allein-Baseline) auf 15,8 %, eine relative Verbesserung um 70 %. Auf AgentNetBench steigt die Schrittgenauigkeit von 64,1 % auf 69,3 %. Unsere Ergebnisse zeigen, dass passiv abgerufene Internet-Videos in hochwertige Aufsichtsdaten für Computer-Verwendungs-Agenten transformiert werden können, was eine skalierbare Alternative zu kostspieligen manuellen Annotationen darstellt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.