HyperAIHyperAI

Command Palette

Search for a command to run...

ScreenAI : Un modèle vision-langue pour la compréhension des interfaces utilisateur et des infographies

Gilles Baechler Srinivas Sunkara Maria Wang Fedir Zubach Hassan Mansoor Vincent Etter Victor Carbune Jason Lin Jindong Chen Abhanshu Sharma

Résumé

Les interfaces utilisateur (UI) et les infographies, partageant une langue visuelle et des principes de conception similaires, jouent des rôles importants dans la communication humaine et l'interaction homme-machine. Nous présentons ScreenAI, un modèle vision-langue spécialisé dans la compréhension des UI et des infographies. Notre modèle améliore l'architecture PaLI grâce à la stratégie de patching flexible de pix2struct et est formé sur un mélange unique de jeux de données. Au cœur de ce mélange se trouve une nouvelle tâche d'annotation d'écran où le modèle doit identifier le type et l'emplacement des éléments d'interface utilisateur. Nous utilisons ces annotations textuelles pour décrire les écrans aux grands modèles linguistiques et générer automatiquement des jeux de données d'apprentissage pour les tâches de question-réponse (QA), de navigation UI et de résumé à grande échelle. Nous menons des études par suppression (ablation studies) pour démontrer l'impact de ces choix de conception. Avec seulement 5 milliards de paramètres, ScreenAI obtient de nouveaux résultats d'état de l'art sur les tâches basées sur les UI et les infographies (Multi-page DocVQA, WebSRC, MoTIF et Widget Captioning) et une nouvelle performance optimale dans sa catégorie sur d'autres tâches (Chart QA, DocVQA et InfographicVQA) par rapport aux modèles de taille similaire. Enfin, nous mettons à disposition trois nouveaux jeux de données : l'un axé sur la tâche d'annotation d'écran et deux autres axés sur la question-réponse.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp