HyperAIHyperAI

Command Palette

Search for a command to run...

vor 12 Tagen

VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

VideoAgentTrek: Computer-Verwendung-Vortrainierung aus unlabeled Videos

Abstract

Die Ausbildung von Computer-Verwendungs-Agenten erfordert eine große Menge an GUI-Interaktionsdaten, doch die manuelle Annotation von Aktionstrajektorien in großem Maßstab ist prohibitiv teuer. Wir präsentieren VideoAgentTrek, eine skalierbare Pipeline, die automatisch Trainingsdaten aus öffentlich verfügbaren, web-skaligen Bildschirmaufnahmen gewinnt und somit die Notwendigkeit manueller Annotationen eliminiert. Unser Ansatz adressiert eine zentrale Herausforderung: Rohvideos enthalten implizite Demonstrationen, verfügen jedoch über keine expliziten Aktionsetiketten. Um dies zu lösen, entwickeln wir Video2Action, ein inverses-Dynamik-Modul (IDM) mit zwei Komponenten: (1) einem Video-Grundmodell, das GUI-Aktionen mit präzisen zeitlichen Grenzen und kontextueller Relevanz erkennt und lokalisiert, und (2) einem Aktion-Inhalt-Erkennungsmodul, das strukturierte Parameter wie Klickkoordinaten und eingegebene Texte mit hoher Genauigkeit extrahiert. Anwendung auf 39.000 YouTube-Tutorial-Videos führt automatisch zu 1,52 Millionen Interaktions-Schritten. Wir nutzen diese Daten durch fortgesetzte Vortrainierung gefolgt von überwachtem Feinabstimmen. Auf OSWorld-Verified steigert sich die Erfolgsrate bei Aufgaben von 9,3 % (SFT-allein-Baseline) auf 15,8 %, eine relative Verbesserung um 70 %. Auf AgentNetBench steigt die Schrittgenauigkeit von 64,1 % auf 69,3 %. Unsere Ergebnisse zeigen, dass passiv abgerufene Internet-Videos in hochwertige Aufsichtsdaten für Computer-Verwendungs-Agenten transformiert werden können, was eine skalierbare Alternative zu kostspieligen manuellen Annotationen darstellt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp