HyperAIHyperAI

Command Palette

Search for a command to run...

Aria-UI : Ancrage visuel pour les instructions de l'interface utilisateur graphique

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Résumé

Les agents numériques pour l'automatisation de tâches sur différentes plateformes en manipulant directement les interfaces graphiques utilisateur (GUI) sont de plus en plus importants. Pour ces agents, l'ancrage des instructions linguistiques aux éléments cibles reste un défi majeur en raison de leur dépendance aux entrées HTML ou AXTree. Dans cet article, nous présentons Aria-UI, un grand modèle multimodal spécifiquement conçu pour l'ancrage des GUI. Aria-UI adopte une approche purement visuelle, évitant la dépendance aux entrées auxiliaires. Pour s'adapter à des instructions de planification hétérogènes, nous proposons une pipeline de données évolutive qui synthétise des échantillons d'instructions variés et de haute qualité pour l'ancrage. Pour gérer les contextes dynamiques lors de l'exécution des tâches, Aria-UI intègre des historiques d'actions textuelles et textuelles-imagées entrelacés, permettant une raisonnement contextuel robuste pour l'ancrage. Aria-UI établit de nouveaux résultats d'état de l'art dans les benchmarks d'agents hors ligne et en ligne, surpassant à la fois les modèles basés uniquement sur la vision et ceux dépendant de l'AXTree. Nous mettons à disposition toutes les données d'entraînement et les points de contrôle du modèle pour favoriser des recherches ultérieures à l'adresse https://ariaui.github.io.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp