Command Palette
Search for a command to run...
VideoAgentTrek : Pré-entraînement à l'utilisation de l'ordinateur à partir de vidéos non étiquetées

Résumé
L'entraînement d'agents utilisant l'ordinateur exige d'importants volumes de données d'interactions GUI, mais l'annotation manuelle des trajectoires d'action à grande échelle s'avère prohibitivement coûteuse. Nous présentons VideoAgentTrek, un pipeline évolutif qui extrait automatiquement des données d'entraînement à partir de vidéos publiques d'enregistrements d'écran à l'échelle du web, éliminant ainsi le besoin d'annotation manuelle. Notre approche répond à un défi majeur : les vidéos brutes contiennent des démonstrations implicites, mais ne comportent pas d'étiquettes d'actions explicites. Pour y remédier, nous avons développé Video2Action, un module de dynamique inverse (IDM) composé de deux composants : (1) un modèle d'ancrage vidéo qui détecte et localise les actions GUI avec des limites temporelles précises et un contexte approprié, et (2) un reconnaissseur d'actions qui extrait des paramètres structurés tels que les coordonnées du clic et le texte saisi, avec une grande fidélité. Appliqué à 39 000 vidéos tutoriels YouTube, notre pipeline génère automatiquement 1,52 million d'étapes d'interaction. Nous exploitons ces données grâce à un pré-entraînement continu suivi d'une fine-tuning supervisée. Sur OSWorld-Verified, notre approche améliore les taux de réussite des tâches de 9,3 % (base SFT uniquement) à 15,8 %, soit une amélioration relative de 70 %. Sur AgentNetBench, la précision par étape passe de 64,1 % à 69,3 %. Nos résultats démontrent qu'il est possible de transformer des vidéos internet passives en une supervision de haute qualité pour des agents utilisant l'ordinateur, offrant ainsi une alternative évolutives aux méthodes d'annotation manuelle coûteuses.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.