HyperAIHyperAI

Command Palette

Search for a command to run...

Flamingo : un modèle de langage visuel pour l'apprentissage à partir de quelques exemples

Résumé

La construction de modèles capables d'être rapidement adaptés à de nouvelles tâches en utilisant seulement quelques exemples annotés est un défi ouvert dans la recherche en apprentissage multimodal. Nous présentons Flamingo, une famille de Modèles Visuels et Linguistiques (VLM) dotée de cette capacité. Nous proposons des innovations architecturales clés pour : (i) relier des modèles préformés puissants spécialisés en vision uniquement et en langage uniquement, (ii) traiter des séquences de données visuelles et textuelles mélangées arbitrairement, et (iii) ingérer sans heurt des images ou des vidéos comme entrées. Grâce à leur flexibilité, les modèles Flamingo peuvent être formés sur de vastes corpus multimodaux web contenant du texte et des images mélangés arbitrairement, ce qui est essentiel pour leur conférer des capacités d'apprentissage par analogie avec peu d'exemples. Nous effectuons une évaluation approfondie de nos modèles, explorant et mesurant leur aptitude à s'adapter rapidement à diverses tâches impliquant des images et des vidéos. Celles-ci incluent des tâches ouvertes telles que le questionnement visuel, où le modèle est invité à répondre à une question ; des tâches de légendage, qui évaluent la capacité de décrire une scène ou un événement ; ainsi que des tâches fermées telles que le questionnement visuel à choix multiples. Pour toutes les tâches situées quelque part sur ce spectre, un seul modèle Flamingo peut atteindre un nouveau niveau d'excellence grâce à l'apprentissage par analogie avec peu d'exemples, simplement en présentant au modèle des exemples spécifiques à la tâche. Sur de nombreux benchmarks, Flamingo surpasse les modèles affinés avec plusieurs milliers de fois plus de données spécifiques à la tâche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp