ScreenAI : Un modèle vision-langue pour la compréhension des interfaces utilisateur et des infographies

Les interfaces utilisateur (UI) et les infographies, partageant une langue visuelle et des principes de conception similaires, jouent des rôles importants dans la communication humaine et l'interaction homme-machine. Nous présentons ScreenAI, un modèle vision-langue spécialisé dans la compréhension des UI et des infographies. Notre modèle améliore l'architecture PaLI grâce à la stratégie de patching flexible de pix2struct et est formé sur un mélange unique de jeux de données. Au cœur de ce mélange se trouve une nouvelle tâche d'annotation d'écran où le modèle doit identifier le type et l'emplacement des éléments d'interface utilisateur. Nous utilisons ces annotations textuelles pour décrire les écrans aux grands modèles linguistiques et générer automatiquement des jeux de données d'apprentissage pour les tâches de question-réponse (QA), de navigation UI et de résumé à grande échelle. Nous menons des études par suppression (ablation studies) pour démontrer l'impact de ces choix de conception. Avec seulement 5 milliards de paramètres, ScreenAI obtient de nouveaux résultats d'état de l'art sur les tâches basées sur les UI et les infographies (Multi-page DocVQA, WebSRC, MoTIF et Widget Captioning) et une nouvelle performance optimale dans sa catégorie sur d'autres tâches (Chart QA, DocVQA et InfographicVQA) par rapport aux modèles de taille similaire. Enfin, nous mettons à disposition trois nouveaux jeux de données : l'un axé sur la tâche d'annotation d'écran et deux autres axés sur la question-réponse.