Pix2Struct : Analyse des captures d'écran comme préformation pour la compréhension visuelle et linguistique

Le langage visuellement situé est omniprésent -- les sources vont des manuels scolaires avec des diagrammes aux pages web contenant des images et des tableaux, en passant par les applications mobiles dotées de boutons et de formulaires. Peut-être en raison de cette diversité, les travaux précédents se sont généralement appuyés sur des recettes spécifiques à chaque domaine, avec une part limitée de partage des données sous-jacentes, des architectures de modèles et des objectifs. Nous présentons Pix2Struct, un modèle pré-entraîné d'image à texte pour la compréhension purement visuelle du langage, qui peut être affiné sur des tâches contenant du langage visuellement situé. Pix2Struct est pré-entraîné en apprenant à analyser des captures d'écran masquées de pages web en HTML simplifié. Le web, avec sa richesse d'éléments visuels clairement reflétés dans la structure HTML, offre une vaste source de données pour le pré-entraînement bien adaptée à la diversité des tâches ultérieures. Intuitivement, cet objectif englobe les signaux courants de pré-entraînement tels que l'OCR (reconnaissance optique de caractères), le modèle linguistique et la légendisation d'images. En plus de cette stratégie innovante de pré-entraînement, nous introduisons une représentation d'entrée à résolution variable et une intégration plus flexible des entrées linguistiques et visuelles, où les invites linguistiques telles que les questions sont rendues directement au-dessus de l'image d'entrée. Pour la première fois, nous montrons qu'un seul modèle pré-entraîné peut atteindre des résultats d'état de l'art dans six sur neuf tâches couvrant quatre domaines : documents, illustrations, interfaces utilisateur et images naturelles.