Amélioration de la détection d'objets inédits par des modèles fondamentaux coopératifs

Dans cette étude, nous abordons le problème émergent et complexe de la détection d'objets inconnus (NOD), en nous concentrant sur la détection précise des catégories d'objets connues et inconnues lors de l'inférence. Les algorithmes traditionnels de détection d'objets sont fondamentalement fermés, ce qui limite leur capacité à gérer la NOD. Nous présentons une nouvelle approche permettant de transformer les détecteurs fermés existants en détecteurs ouverts. Cette transformation est réalisée en exploitant les forces complémentaires des modèles fondamentaux pré-entraînés, spécifiquement CLIP et SAM, grâce à notre mécanisme coopératif. De plus, en intégrant ce mécanisme aux détecteurs ouverts de pointe tels que GDINO, nous établissons de nouveaux standards dans les performances de détection d'objets. Notre méthode atteint un mAP de 17,42 pour la détection d'objets inconnus et un mAP de 42,08 pour les objets connus sur le jeu de données LVIS. En adaptant notre approche au split OVD COCO, nous surpassons l'état actuel de l'art avec une marge de 7,2 $ \text{AP}_{50} $ pour les classes inconnues. Notre code est disponible à l'adresse suivante : https://rohit901.github.io/coop-foundation-models/ .