il y a 2 mois

Unified-IO : Un modèle unifié pour la vision, le langage et les tâches multi-modales

Lu, Jiasen ; Clark, Christopher ; Zellers, Rowan ; Mottaghi, Roozbeh ; Kembhavi, Aniruddha

Résumé

Nous proposons Unified-IO, un modèle capable d'effectuer une grande variété de tâches en intelligence artificielle, couvrant des tâches classiques de vision par ordinateur telles que l'estimation de la posture, la détection d'objets, l'estimation de profondeur et la génération d'images, des tâches de vision et langage comme la légendage de régions et les expressions référentielles, ainsi que des tâches de traitement du langage naturel telles que la réponse à des questions et le paraphrasage. Le développement d'un seul modèle unifié pour une telle diversité de tâches présente des défis uniques en raison des entrées et sorties hétérogènes associées à chaque tâche, y compris les images RGB, les cartes par pixel, les masques binaires, les boîtes englobantes et le langage. Nous réalisons cette unification en homogénéisant toutes les entrées et sorties supportées en une séquence de jetons de vocabulaire discrets. Cette représentation commune pour toutes les tâches nous permet d'entraîner une seule architecture basée sur un transformateur, conjointement sur plus de 90 jeux de données divers dans les domaines de la vision et du langage. Unified-IO est le premier modèle capable d'effectuer toutes les 7 tâches du benchmark GRIT et produit des résultats solides sur 16 benchmarks divers comme NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ et SciTail, sans aucun ajustement spécifique à une tâche. Le code source et des démonstrations pour Unified-IO sont disponibles à l'adresse suivante : https://unified-io.allenai.org.