il y a 8 mois

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Résumé

L'automatisation des tâches d'interface utilisateur graphique (GUI) reste un défi en raison de la dépendance aux représentations textuelles, des espaces d'action spécifiques à chaque plateforme et des capacités limitées de raisonnement. Nous présentons Aguvis, un cadre unifié basé sur la vision pour les agents autonomes GUI qui opère directement sur les images d'écran, standardise les interactions cross-plateformes et intègre le raisonnement structuré par le biais du monologue interne. Pour permettre cela, nous avons construit la collection de données Aguvis, une base de données à grande échelle dotée d'annotations de contextualisation et de raisonnement multimodales, et développé une pipeline d'entraînement en deux étapes qui sépare la contextualisation GUI de la planification et du raisonnement. Les expériences montrent que Aguvis atteint des performances de pointe dans les benchmarks hors ligne et en ligne dans le monde réel, marquant ainsi le premier agent GUI entièrement autonome basé sur la vision qui fonctionne sans modèles propriétaires. Nous mettons à disposition toutes les bases de données, modèles et recettes d'entraînement sous licence open source à l'adresse https://aguvis-project.github.io afin d'avancer la recherche future.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Agent

Interaction Homme-Machine

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Agent

Interaction Homme-Machine

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Aguvis : Agents Unifiés de Vision Pure pour l'Interaction Autonome avec les Interfaces Graphiques Utilisateur | Articles | HyperAI

Command Palette

Aguvis : Agents Unifiés de Vision Pure pour l'Interaction Autonome avec les Interfaces Graphiques Utilisateur

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Aguvis : Agents Unifiés de Vision Pure pour l'Interaction Autonome avec les Interfaces Graphiques Utilisateur

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Aguvis : Agents Unifiés de Vision Pure pour l'Interaction Autonome avec les Interfaces Graphiques Utilisateur

Xu Yiheng ; Wang Zekun ; Wang Junli ; Lu Dunjie ; Xie Tianbao ; Saha Amrita ; Sahoo Doyen ; Yu Tao ; Xiong Caiming

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters