HyperAIHyperAI

Command Palette

Search for a command to run...

Unified-IO : Un modèle unifié pour la vision, le langage et les tâches multi-modales

Jiasen Lu†* Christopher Clark†* Rowan Zellers†○ Roozbeh Mottaghi†○ Aniruddha Kembhavi†○

Résumé

Nous proposons Unified-IO, un modèle capable d'effectuer une grande variété de tâches en intelligence artificielle, couvrant des tâches classiques de vision par ordinateur telles que l'estimation de la posture, la détection d'objets, l'estimation de profondeur et la génération d'images, des tâches de vision et langage comme la légendage de régions et les expressions référentielles, ainsi que des tâches de traitement du langage naturel telles que la réponse à des questions et le paraphrasage. Le développement d'un seul modèle unifié pour une telle diversité de tâches présente des défis uniques en raison des entrées et sorties hétérogènes associées à chaque tâche, y compris les images RGB, les cartes par pixel, les masques binaires, les boîtes englobantes et le langage. Nous réalisons cette unification en homogénéisant toutes les entrées et sorties supportées en une séquence de jetons de vocabulaire discrets. Cette représentation commune pour toutes les tâches nous permet d'entraîner une seule architecture basée sur un transformateur, conjointement sur plus de 90 jeux de données divers dans les domaines de la vision et du langage. Unified-IO est le premier modèle capable d'effectuer toutes les 7 tâches du benchmark GRIT et produit des résultats solides sur 16 benchmarks divers comme NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ et SciTail, sans aucun ajustement spécifique à une tâche. Le code source et des démonstrations pour Unified-IO sont disponibles à l'adresse suivante : https://unified-io.allenai.org.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp