il y a 8 mois

Résumé

Les agents d'interface utilisateur graphique (GUI) sont conçus pour automatiser des tâches complexes sur des appareils numériques, tels que des smartphones et des ordinateurs de bureau. La plupart des agents GUI existants interagissent avec l'environnement à travers des données structurées extraites, qui peuvent être notablement longues (par exemple, HTML) et occasionnellement inaccessibles (par exemple, sur les ordinateurs de bureau). Pour atténuer ce problème, nous proposons un nouvel agent GUI visuel -- SeeClick, qui ne repose que sur des captures d'écran pour l'automatisation des tâches. Dans notre étude préliminaire, nous avons identifié un défi majeur dans le développement d'agents GUI visuels : le positionnement GUI -- la capacité de localiser précisément les éléments d'écran en fonction des instructions. Pour relever ce défi, nous proposons d'améliorer SeeClick grâce à une pré-formation en positionnement GUI et de concevoir une méthode pour automatiser la création de données de positionnement GUI. En complément de ces efforts, nous avons également créé ScreenSpot, le premier banc d'essai réaliste pour le positionnement GUI couvrant les environnements mobiles, de bureau et web. Après la pré-formation, SeeClick montre une amélioration significative sur ScreenSpot par rapport à diverses lignes de base. De plus, des évaluations approfondies sur trois benchmarks largement utilisés soutiennent constamment notre constat selon lequel les progrès en matière de positionnement GUI sont directement corrélés à une meilleure performance dans les tâches effectuées par les agents GUI en aval. Le modèle, les données et le code sont disponibles à l'adresse suivante : https://github.com/njucckevin/SeeClick.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Interaction Homme-Machine

Compréhension D'images

Multimodal

Domaine De Recherche

Multimodal

Vision Par Ordinateur

Tâche

Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Interaction Homme-Machine

Compréhension D'images

Multimodal

Domaine De Recherche

Multimodal

Vision Par Ordinateur

Tâche

Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

SeeClick : Exploiter l'ancrage GUI pour des agents visuels avancés de GUI

Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SeeClick : Exploiter l'ancrage GUI pour des agents visuels avancés de GUI

Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

SeeClick : Exploiter l'ancrage GUI pour des agents visuels avancés de GUI

Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters