Command Palette
Search for a command to run...
Agents d'utilisation d'ordinateur en tant que juges pour les interfaces utilisateur génératives
Kevin Qinghong Lin Siyuan Hu Linjie Li Zhengyuan Yang Lijuan Wang Philip Torr Mike Zheng Shou

Résumé
Voici la traduction du texte en français, respectant le style formel et académique propre au domaine technologique :Les agents utilisateurs d'ordinateurs (CUA, pour Computer-Use Agents) deviennent de plus en plus capables d'opérer de manière autonome dans des environnements numériques via des interfaces graphiques (GUI). Cependant, la plupart des GUI restent conçues principalement pour les humains — privilégiant l'esthétique et l'utilisabilité — ce qui contraint les agents à adopter des comportements orientés vers l'humain, inutiles pour une exécution efficace des tâches. Parallèlement, les progrès rapides des modèles de langage orientés vers le code (Coder) ont transformé la conception automatique d'interfaces graphiques. Une question fondamentale se pose alors : les CUA peuvent-ils agir en tant que juges pour assister le Coder dans la conception automatique de GUI ?Pour étudier cette question, nous introduisons AUI-Gym, un benchmark pour le développement automatique de GUI couvrant 52 applications dans divers domaines. À l'aide de modèles de langage, nous synthétisons 1 560 tâches simulant des scénarios du monde réel. Afin de garantir la fiabilité des tâches, nous développons également un vérificateur qui contrôle, par voie programmatique, si chaque tâche est exécutable au sein de son environnement. Sur cette base, nous proposons un cadre de collaboration « Coder-CUA » : le Coder agit en tant que Concepteur (Designer), générant et révisant les sites web, tandis que le CUA sert de Juge, évaluant la fonctionnalité et affinant les conceptions.Le succès n'est pas mesuré par l'apparence visuelle, mais par la résolubilité des tâches et le taux de réussite de la navigation du CUA. Pour transformer les retours du CUA en conseils exploitables, nous concevons un tableau de bord CUA (CUA Dashboard) qui condense les historiques de navigation multi-étapes en résumés visuels concis, offrant ainsi des orientations interprétables pour une reconception itérative. En positionnant les agents à la fois comme concepteurs et juges, notre cadre redirige la conception d'interfaces vers une efficacité et une fiabilité natives pour les agents. Nos travaux constituent un pas vers le passage des agents d'une utilisation passive à une participation active dans les environnements numériques. Notre code et notre jeu de données sont disponibles sur https://github.com/showlab/AUI.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.