HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

UI-S1 : Progresser dans l'automatisation de l'interface graphique grâce à l'apprentissage par renforcement semi-en ligne

UI-S1 : Progresser dans l'automatisation de l'interface graphique grâce à l'apprentissage par renforcement semi-en ligne

Résumé

Les agents d'interface utilisateur graphique (GUI) ont fait des progrès remarquables dans l'automatisation des interactions complexes avec les interfaces grâce à l'apprentissage par renforcement. Toutefois, les approches actuelles sont confrontées à un dilemme fondamental : l'apprentissage par renforcement hors ligne (offline RL) permet une formation stable à partir de trajectoires pré-collectées, mais peine à exécuter efficacement des tâches multi-étapes en raison de l'absence de signaux de récompense au niveau de la trajectoire ; l'apprentissage par renforcement en ligne (online RL), quant à lui, capte ces signaux grâce à l'interaction avec l'environnement, mais souffre de récompenses rares et de coûts de déploiement prohibitifs. Pour relever ce défi, nous proposons un nouveau paradigme, appelé apprentissage par renforcement semi-en ligne (Semi-online Reinforcement Learning), qui simule le fonctionnement de l'online RL à partir de trajectoires hors ligne. Lors de chaque phase d'exploration (rollout), nous conservons la sortie originale du modèle au sein de la conversation multi-tours, tandis qu'un module de correction (Patch Module) ajuste de manière adaptative les écarts entre les trajectoires générées et celles des experts. Pour capturer des signaux d'apprentissage à long terme, le modèle intègre dans le calcul de la récompense des rendements futurs actualisés, et optimise la politique en combinant avantage au niveau des étapes et avantage au niveau des épisodes, pondérés selon leur importance. Nous introduisons également une métrique, appelée Performance Semi-en ligne (SOP), qui correspond mieux à la performance réelle en ligne et s'avère être un indicateur pratique et efficace pour l'évaluation en situation réelle. Les expériences montrent que notre méthode atteint des performances de pointe (SOTA) parmi les modèles de 7 milliards de paramètres sur quatre benchmarks dynamiques, avec des gains significatifs par rapport au modèle de base (par exemple, +12,0 % sur AndroidWorld, +23,8 % sur AITW), démontrant ainsi des progrès importants dans la réduction de l'écart entre l'efficacité de l'entraînement hors ligne et la capacité au raisonnement multi-tours en ligne. Le code est disponible à l'adresse suivante : https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
UI-S1 : Progresser dans l'automatisation de l'interface graphique grâce à l'apprentissage par renforcement semi-en ligne | Articles de recherche | HyperAI