vor 12 Tagen

VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

Dunjie Lu Yiheng Xu Junli Wang Haoyuan Wu Xinyuan Wang Zekun Wang Junlin Yang Hongjin Su Jixuan Chen Junda Chen

Abstract

Die Ausbildung von Computer-Verwendungs-Agenten erfordert eine große Menge an GUI-Interaktionsdaten, doch die manuelle Annotation von Aktionstrajektorien in großem Maßstab ist prohibitiv teuer. Wir präsentieren VideoAgentTrek, eine skalierbare Pipeline, die automatisch Trainingsdaten aus öffentlich verfügbaren, web-skaligen Bildschirmaufnahmen gewinnt und somit die Notwendigkeit manueller Annotationen eliminiert. Unser Ansatz adressiert eine zentrale Herausforderung: Rohvideos enthalten implizite Demonstrationen, verfügen jedoch über keine expliziten Aktionsetiketten. Um dies zu lösen, entwickeln wir Video2Action, ein inverses-Dynamik-Modul (IDM) mit zwei Komponenten: (1) einem Video-Grundmodell, das GUI-Aktionen mit präzisen zeitlichen Grenzen und kontextueller Relevanz erkennt und lokalisiert, und (2) einem Aktion-Inhalt-Erkennungsmodul, das strukturierte Parameter wie Klickkoordinaten und eingegebene Texte mit hoher Genauigkeit extrahiert. Anwendung auf 39.000 YouTube-Tutorial-Videos führt automatisch zu 1,52 Millionen Interaktions-Schritten. Wir nutzen diese Daten durch fortgesetzte Vortrainierung gefolgt von überwachtem Feinabstimmen. Auf OSWorld-Verified steigert sich die Erfolgsrate bei Aufgaben von 9,3 % (SFT-allein-Baseline) auf 15,8 %, eine relative Verbesserung um 70 %. Auf AgentNetBench steigt die Schrittgenauigkeit von 64,1 % auf 69,3 %. Unsere Ergebnisse zeigen, dass passiv abgerufene Internet-Videos in hochwertige Aufsichtsdaten für Computer-Verwendungs-Agenten transformiert werden können, was eine skalierbare Alternative zu kostspieligen manuellen Annotationen darstellt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

Dunjie Lu Yiheng Xu Junli Wang Haoyuan Wu Xinyuan Wang Zekun Wang Junlin Yang Hongjin Su Jixuan Chen Junda Chen5 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Dunjie Lu Yiheng Xu Junli Wang Haoyuan Wu Xinyuan Wang Zekun Wang Junlin Yang Hongjin Su Jixuan Chen Junda Chen