HyperAIHyperAI

Command Palette

Search for a command to run...

OS-ATLAS : un modèle d'action fondamental pour des agents GUI généralistes

Résumé

Les efforts actuels visant à concevoir des agents GUI s'appuient fortement sur la disponibilité de modèles vision-langage (VLM) commerciaux robustes, tels que GPT-4o et Gemini Pro Vision. Les praticiens hésitent fréquemment à utiliser des VLM open-source en raison de leur écart de performance significatif par rapport à leurs homologues propriétaires, en particulier dans les tâches d'ancrage GUI et dans des scénarios hors distribution (OOD). Afin de favoriser les recherches futures dans ce domaine, nous avons développé OS-Atlas — un modèle fondamental d’action GUI qui excelle dans l’ancrage GUI et les tâches agencées OOD grâce à des innovations tant au niveau des données qu’au niveau de la modélisation. Nous avons consacré d’importants efforts d’ingénierie à la création d’un outil open-source permettant de synthétiser des données d’ancrage GUI sur plusieurs plateformes, incluant Windows, Linux, macOS, Android et le web. Grâce à cet outil, nous mettons à disposition le plus grand corpus open-source d’ancrage GUI à ce jour, comprenant plus de 13 millions d’éléments GUI. Associé à des avancées dans la formation des modèles, ce jeu de données constitue une base solide pour que OS-Atlas comprenne des captures d’écran GUI et s’adapte à des interfaces inconnues. Grâce à une évaluation approfondie sur six benchmarks couvrant trois plateformes différentes (mobile, bureau et web), OS-Atlas démontre des améliorations significatives par rapport aux modèles d’état de l’art précédents. Notre évaluation révèle également des aperçus précieux sur la manière d’améliorer continuellement et d’échelonner les capacités agencées des VLM open-source.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OS-ATLAS : un modèle d'action fondamental pour des agents GUI généralistes | Articles | HyperAI