HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

BTL-UI : Modèle de raisonnement Blink-Think-Link pour un agent GUI

BTL-UI : Modèle de raisonnement Blink-Think-Link pour un agent GUI

Résumé

Dans le domaine de l’automatisation de l’interaction homme-interface graphique (GUI) pilotée par l’intelligence artificielle, malgré les progrès remarquables réalisés grâce aux avancées récentes des grands modèles linguistiques multimodaux et des techniques d’ajustement par renforcement, un défi fondamental demeure : leur logique d’interaction s’écarte fortement des schémas naturels d’interaction humaine avec les interfaces graphiques. Pour combler cet écart, nous proposons un cadre inspiré du cerveau, nommé « Blink-Think-Link » (BTL), qui imite le processus cognitif humain lors de l’interaction avec les interfaces graphiques. Ce système décompose les interactions en trois phases biologiquement plausibles : (1) Blink — détection rapide et focalisation de l’attention sur les zones pertinentes de l’écran, analogue aux mouvements saccadés des yeux ; (2) Think — raisonnement de haut niveau et prise de décision, reflétant le processus de planification cognitive ; (3) Link — génération de commandes exécutables pour un contrôle moteur précis, évoquant les mécanismes d’élaboration des actions humaines.Par ailleurs, nous introduisons deux innovations techniques clés pour le cadre BTL : (1) Blink Data Generation — une pipeline d’annotation automatisée spécifiquement optimisée pour les données de type « Blink » ; (2) BTL Reward — le premier mécanisme de récompense fondé sur des règles, permettant l’apprentissage par renforcement piloté à la fois par le processus et par le résultat. En s’appuyant sur ce cadre, nous développons un modèle d’agent GUI baptisé BTL-UI, qui démontre des performances de pointe de manière cohérente sur des tâches aussi bien d’analyse statique des interfaces que d’interaction dynamique, dans des benchmarks complets. Ces résultats fournissent une validation empirique concluante de l’efficacité du cadre dans le développement d’agents GUI avancés.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp