il y a 6 mois

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan

Résumé

Des études récentes se sont penchées sur la construction d’agents autonomes capables d’effectuer des tâches informatiques complexes basées sur une interface graphique (GUI), ouvrant la voie à une révolution dans l’interaction homme-machine. Malgré des résultats encourageants, les approches existantes se concentrent principalement sur des interactions à court terme et reposent sur une vérification uniquement basée sur les résultats, ce qui limite leur échelle d’application dans des environnements réels de GUI exigeant une décomposition et une exécution de tâches à horizon long. Dans ce travail, nous introduisons VeriGUI, un nouveau jeu de données vérifiable à chaîne longue conçu pour faciliter le développement et l’évaluation d’agents GUI généralistes opérant dans des environnements informatiques réalistes. Notre jeu de données met l’accent sur deux dimensions essentielles : (1) la complexité à chaîne longue, avec des tâches décomposées en une séquence de sous-tâches interdépendantes s’étendant sur des centaines d’étapes, explicitement conçues pour permettre à toute sous-tâche de servir de point de départ valide ; et (2) la vérifiabilité au niveau des sous-tâches, qui permet des stratégies d’exploration diversifiées au sein de chaque sous-tâche, tout en garantissant que chaque objectif au niveau de la sous-tâche reste vérifiable et cohérent. Le jeu de données comprend des trajectoires d’actions GUI sur les environnements de bureau et web, annotées par des experts humains. Des expérimentations étendues sur VeriGUI menées avec divers agents reposant sur différentes architectures fondamentales révèlent des écarts significatifs de performance dans la gestion des tâches à horizon long, soulignant la nécessité de capacités de planification et de prise de décision plus robustes chez les agents GUI.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

VeriGUI : Jeu de données Verifiable Long-Chain GUI | Articles | HyperAI

Command Palette

VeriGUI : Jeu de données Verifiable Long-Chain GUI

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan22 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VeriGUI : Jeu de données Verifiable Long-Chain GUI

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan22 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VeriGUI : Jeu de données Verifiable Long-Chain GUI

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan22 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan

Shunyu Liu Minghao Liu Huichi Zhou Zhenyu Cui Yang Zhou Yuhao Zhou Wendong Fan Ge Zhang Jiajun Shi Weihao Xuan