Command Palette
Search for a command to run...
Aria-UI : Ancrage visuel pour les instructions de l'interface utilisateur graphique
Aria-UI : Ancrage visuel pour les instructions de l'interface utilisateur graphique
Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li
Résumé
Les agents numériques pour l'automatisation de tâches sur différentes plateformes en manipulant directement les interfaces graphiques utilisateur (GUI) sont de plus en plus importants. Pour ces agents, l'ancrage des instructions linguistiques aux éléments cibles reste un défi majeur en raison de leur dépendance aux entrées HTML ou AXTree. Dans cet article, nous présentons Aria-UI, un grand modèle multimodal spécifiquement conçu pour l'ancrage des GUI. Aria-UI adopte une approche purement visuelle, évitant la dépendance aux entrées auxiliaires. Pour s'adapter à des instructions de planification hétérogènes, nous proposons une pipeline de données évolutive qui synthétise des échantillons d'instructions variés et de haute qualité pour l'ancrage. Pour gérer les contextes dynamiques lors de l'exécution des tâches, Aria-UI intègre des historiques d'actions textuelles et textuelles-imagées entrelacés, permettant une raisonnement contextuel robuste pour l'ancrage. Aria-UI établit de nouveaux résultats d'état de l'art dans les benchmarks d'agents hors ligne et en ligne, surpassant à la fois les modèles basés uniquement sur la vision et ceux dépendant de l'AXTree. Nous mettons à disposition toutes les données d'entraînement et les points de contrôle du modèle pour favoriser des recherches ultérieures à l'adresse https://ariaui.github.io.