Florence-2 : Vers une représentation unifiée pour une diversité de tâches visuelles

Nous présentons Florence-2, un nouveau modèle fondamental de vision doté d'une représentation unifiée basée sur des prompts, adaptée à une large variété de tâches en vision par ordinateur et vision-langage. Bien que les modèles de vision à grande échelle existants excellent dans l'apprentissage transféré, ils peinent à exécuter une diversité de tâches avec simplement des instructions simples — une capacité qui suppose la gestion de la complexité inhérente à différentes hiérarchies spatiales et à différentes granularités sémantiques. Florence-2 a été conçu pour accepter des instructions textuelles comme entrée et produire des résultats souhaités sous forme textuelle, que ce soit pour la génération de légendes (captioning), la détection d'objets, l'alignement (grounding) ou la segmentation. Ce cadre d'apprentissage multi-tâches exige des données annotées à grande échelle et de haute qualité. À cette fin, nous avons co-développé FLD-5B, une base de données comprenant 5,4 milliards d'annotations visuelles complètes sur 126 millions d'images, construite à l’aide d’une stratégie itérative d’annotation automatique d’images et de raffinement du modèle. Nous avons adopté une architecture séquence-à-séquence pour entraîner Florence-2 afin qu’il puisse accomplir des tâches de vision polyvalentes et complètes. Des évaluations étendues sur de nombreuses tâches démontrent que Florence-2 constitue un concurrent de premier plan parmi les modèles fondamentaux de vision, doté de capacités inédites en apprentissage zéro-shot et en adaptation fine.