HyperAIHyperAI
il y a 2 mois

Flamingo : un modèle de langage visuel pour l'apprentissage à partir de quelques exemples

Alayrac, Jean-Baptiste ; Donahue, Jeff ; Luc, Pauline ; Miech, Antoine ; Barr, Iain ; Hasson, Yana ; Lenc, Karel ; Mensch, Arthur ; Millican, Katie ; Reynolds, Malcolm ; Ring, Roman ; Rutherford, Eliza ; Cabi, Serkan ; Han, Tengda ; Gong, Zhitao ; Samangooei, Sina ; Monteiro, Marianne ; Menick, Jacob ; Borgeaud, Sebastian ; Brock, Andrew ; Nematzadeh, Aida ; Sharifzadeh, Sahand ; Binkowski, Mikolaj ; Barreira, Ricardo ; Vinyals, Oriol ; Zisserman, Andrew ; Simonyan, Karen
Flamingo : un modèle de langage visuel pour l'apprentissage à partir de quelques exemples
Résumé

La construction de modèles capables d'être rapidement adaptés à de nouvelles tâches en utilisant seulement quelques exemples annotés est un défi ouvert dans la recherche en apprentissage multimodal. Nous présentons Flamingo, une famille de Modèles Visuels et Linguistiques (VLM) dotée de cette capacité. Nous proposons des innovations architecturales clés pour : (i) relier des modèles préformés puissants spécialisés en vision uniquement et en langage uniquement, (ii) traiter des séquences de données visuelles et textuelles mélangées arbitrairement, et (iii) ingérer sans heurt des images ou des vidéos comme entrées. Grâce à leur flexibilité, les modèles Flamingo peuvent être formés sur de vastes corpus multimodaux web contenant du texte et des images mélangés arbitrairement, ce qui est essentiel pour leur conférer des capacités d'apprentissage par analogie avec peu d'exemples. Nous effectuons une évaluation approfondie de nos modèles, explorant et mesurant leur aptitude à s'adapter rapidement à diverses tâches impliquant des images et des vidéos. Celles-ci incluent des tâches ouvertes telles que le questionnement visuel, où le modèle est invité à répondre à une question ; des tâches de légendage, qui évaluent la capacité de décrire une scène ou un événement ; ainsi que des tâches fermées telles que le questionnement visuel à choix multiples. Pour toutes les tâches situées quelque part sur ce spectre, un seul modèle Flamingo peut atteindre un nouveau niveau d'excellence grâce à l'apprentissage par analogie avec peu d'exemples, simplement en présentant au modèle des exemples spécifiques à la tâche. Sur de nombreux benchmarks, Flamingo surpasse les modèles affinés avec plusieurs milliers de fois plus de données spécifiques à la tâche.

Flamingo : un modèle de langage visuel pour l'apprentissage à partir de quelques exemples | Articles de recherche récents | HyperAI