il y a 8 mois

Résumé

Les agents numériques pour l'automatisation de tâches sur différentes plateformes en manipulant directement les interfaces graphiques utilisateur (GUI) sont de plus en plus importants. Pour ces agents, l'ancrage des instructions linguistiques aux éléments cibles reste un défi majeur en raison de leur dépendance aux entrées HTML ou AXTree. Dans cet article, nous présentons Aria-UI, un grand modèle multimodal spécifiquement conçu pour l'ancrage des GUI. Aria-UI adopte une approche purement visuelle, évitant la dépendance aux entrées auxiliaires. Pour s'adapter à des instructions de planification hétérogènes, nous proposons une pipeline de données évolutive qui synthétise des échantillons d'instructions variés et de haute qualité pour l'ancrage. Pour gérer les contextes dynamiques lors de l'exécution des tâches, Aria-UI intègre des historiques d'actions textuelles et textuelles-imagées entrelacés, permettant une raisonnement contextuel robuste pour l'ancrage. Aria-UI établit de nouveaux résultats d'état de l'art dans les benchmarks d'agents hors ligne et en ligne, surpassant à la fois les modèles basés uniquement sur la vision et ceux dépendant de l'AXTree. Nous mettons à disposition toutes les données d'entraînement et les points de contrôle du modèle pour favoriser des recherches ultérieures à l'adresse https://ariaui.github.io.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Agent

Interaction Homme-Machine

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Agent

Interaction Homme-Machine

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Aria-UI : Ancrage visuel pour les instructions de l'interface utilisateur graphique | Articles | HyperAI

Command Palette

Aria-UI : Ancrage visuel pour les instructions de l'interface utilisateur graphique

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Aria-UI : Ancrage visuel pour les instructions de l'interface utilisateur graphique

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Aria-UI : Ancrage visuel pour les instructions de l'interface utilisateur graphique

Yuhao Yang; Yue Wang; Dongxu Li; Ziyang Luo; Bei Chen; Chao Huang; Junnan Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters