HyperAIHyperAI

Command Palette

Search for a command to run...

Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI

Résumé

Grâce au développement des modèles de raisonnement multimodaux, les agents informatiques (Computer Use Agents, CUAs), analogues à Jarvis dans Iron Man, deviennent une réalité. L’ancrage visuel (GUI grounding) constitue un composant central permettant aux CUAs d’exécuter des actions concrètes, de manière similaire au contrôle mécanique en robotique, et conditionne directement le succès ou l’échec du système. Il détermine des actions telles que les clics et la saisie, ainsi que des paramètres associés comme les coordonnées des clics. Les modèles d’ancrage entièrement end-to-end actuels atteignent encore moins de 65 % de précision sur des benchmarks exigeants tels que ScreenSpot-pro et UI-Vision, ce qui indique qu’ils sont loin d’être prêts à être déployés. Une erreur de clic unique pouvant entraîner des conséquences inacceptables. Dans ce travail, nous menons une étude empirique sur l’entraînement des modèles d’ancrage, en examinant en détail chaque étape, de la collecte des données à l’entraînement du modèle. En fin de compte, nous avons développé la famille de modèles Phi-Ground, qui atteint des performances de pointe (SOTA) sur l’ensemble des cinq benchmarks d’ancrage pour des modèles de moins de 10 milliards de paramètres dans un cadre d’agent. Dans un cadre de modèle end-to-end, notre modèle obtient toujours des résultats SOTA, avec des scores de 43,2 sur ScreenSpot-pro et de 27,2 sur UI-Vision. Nous pensons que les divers détails abordés dans cet article, ainsi que nos réussites et échecs, contribuent non seulement à clarifier la construction de modèles d’ancrage, mais aussi à améliorer d’autres tâches de perception. Page du projet :https://zhangmiaosen2000.github.io/Phi-Ground/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Rapport technique de Phi-Ground : Progresser dans la perception de l'alignement GUI | Articles | HyperAI