HyperAIHyperAI

Command Palette

Search for a command to run...

Unification des tâches vision-langage par génération de texte

Jaemin Cho Jie Lei Hao Tan Mohit Bansal

Résumé

Les méthodes existantes d'apprentissage vision-langage exigent généralement la conception d'architectures et d'objectifs spécifiques à chaque tâche. Par exemple, un classificateur à plusieurs étiquettes pour la réponse à des questions visuelles, un scoreur de régions pour la compréhension d'expressions référentielles, ou encore un décodeur linguistique pour la génération de légendes d'images, etc. Afin de réduire ces complexités, nous proposons dans ce travail un cadre unifié qui apprend différentes tâches au sein d'une seule architecture, avec le même objectif de modélisation linguistique, à savoir la génération textuelle conditionnelle multimodale. Dans ce cadre, nos modèles apprennent à générer des étiquettes sous forme de texte à partir d'entrées visuelles et textuelles. Sur 7 benchmarks populaires d'apprentissage vision-langage, incluant la réponse à des questions visuelles, la compréhension d'expressions référentielles et le raisonnement visuel communautaire — des tâches qui ont auparavant été modélisées comme des tâches discriminatives — notre approche générative (basée sur une architecture unifiée unique) atteint des performances comparables aux meilleurs modèles récents spécifiques à chaque tâche. En outre, notre approche générative démontre une meilleure capacité de généralisation face à des questions ayant des réponses rares. Nous montrons également que notre cadre permet l'apprentissage multi-tâches dans une seule architecture, avec un seul ensemble de paramètres, tout en atteignant des performances similaires à celles des modèles uniques optimisés séparément pour chaque tâche. Notre code est disponible publiquement à l'adresse suivante : https://github.com/j-min/VL-T5


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp