Florence : Un Nouveau Modèle de Fondation pour la Vision par Ordinateur

La compréhension visuelle automatisée de notre monde diversifié et ouvert exige que les modèles de vision par ordinateur généralisent bien avec un minimum d'adaptation pour des tâches spécifiques, de manière similaire à la vision humaine. Les modèles fondamentaux de vision par ordinateur, qui sont formés sur des ensembles de données diversifiés et à grande échelle et peuvent être adaptés à une large gamme de tâches en aval, sont essentiels pour réaliser cette mission et résoudre des applications réelles de vision par ordinateur. Bien que les modèles fondamentaux existants comme CLIP, ALIGN et Wu Dao 2.0 se concentrent principalement sur l'association d'images et de représentations textuelles à une représentation partagée intermodale, nous présentons un nouveau modèle fondamental de vision par ordinateur, Florence, qui vise à étendre les représentations du grossier (scène) au fin (objet), du statique (images) au dynamique (vidéos), et du RGB aux multiples modalités (légende, profondeur). En intégrant des représentations visuelles-langage universelles issues de données image-texte à l'échelle du Web, notre modèle Florence peut être facilement adapté à diverses tâches de vision par ordinateur, telles que la classification, la recherche d'images, la détection d'objets, le Q&A visuel (VQA), la génération de légendes d'images, la recherche vidéo et la reconnaissance d'actions. De plus, Florence montre des performances exceptionnelles dans plusieurs types d'apprentissage par transfert : l'ajustement fin pleinement échantillonné (fully sampled fine-tuning), le sondage linéaire (linear probing), le transfert avec peu d'exemples (few-shot transfer) et le transfert sans exemple pour des images et objets inédits (zero-shot transfer). Toutes ces propriétés sont cruciales pour que notre modèle fondamental de vision serve des tâches visuelles générales. Florence obtient des résultats nouveaux et meilleurs que l'état actuel de l'art dans la majorité des 44 benchmarks représentatifs, notamment une précision zéro-shot top-1 de 83,74 % et une précision top-5 de 97,18 % sur ImageNet-1K, un mAP de 62,4 sur COCO après ajustement fin, 80,36 % sur VQA et 87,8 % sur Kinetics-600.