Modèle de fondation d'objets généraux pour images et vidéos à grande échelle

Dans le cadre de ce travail, nous présentons GLEE, un modèle fondamental au niveau des objets pour la localisation et l'identification d'objets dans les images et les vidéos. Grâce à un cadre unifié, GLEE réalise la détection, la segmentation, le suivi, l'ancrage et l'identification d'objets arbitraires dans des scénarios ouverts pour diverses tâches de perception des objets. En adoptant une stratégie d'apprentissage cohérente, GLEE acquiert des connaissances à partir de sources de données variées avec différents niveaux de supervision afin de formuler des représentations générales d'objets, se distinguant par son excellence en transfert zéro-shot vers de nouvelles données et tâches.Plus précisément, nous utilisons un encodeur d'image, un encodeur de texte et un prompteur visuel pour traiter des entrées multimodales, permettant ainsi de résoudre simultanément diverses tâches en aval centrées sur les objets tout en maintenant des performances de pointe. Démontré par une formation intensive sur plus de cinq millions d'images provenant de diverses références (benchmarks), GLEE montre une grande polyvalence et une amélioration notable des performances généralisées, gérant efficacement les tâches en aval sans nécessiter d'adaptation spécifique à chaque tâche. En intégrant de grands volumes de données étiquetées automatiquement, nous renforçons davantage ses capacités de généralisation zéro-shot.De plus, GLEE peut être intégré aux grands modèles linguistiques (Large Language Models), servant de modèle fondamental pour fournir des informations universelles au niveau des objets pour les tâches multimodales. Nous espérons que la polyvalence et l'universalité de notre méthode constitueront une étape significative dans le développement de modèles visuels fondamentaux efficaces pour les systèmes d'intelligence artificielle générale (AGI). Le modèle et le code seront mis à disposition sur https://glee-vision.github.io .