DeNet : Détection d'objets en temps réel avec un échantillonnage épars dirigé

Nous définissons le problème de détection d'objets à partir d'images comme l'estimation d'une distribution de probabilités très grande mais extrêmement creuse, dépendante des boîtes englobantes. Nous identifions ensuite un schéma d'estimation de distribution creuse, l'échantillonnage creux dirigé (Directed Sparse Sampling), et nous l'utilisons dans un modèle de détection basé sur un CNN unique et de bout en bout. Cette méthodologie étend et formalise les modèles de détection précédemment considérés comme étant à l'état de l'art, avec une emphase supplémentaire sur les taux d'évaluation élevés et la réduction du génie manuel. Nous introduisons deux innovations : un estimateur de région d'intérêt basé sur les coins et un modèle CNN basé sur la déconvolution. Le modèle résultant est adapté aux scènes, n'a pas besoin de boîtes englobantes de référence définies manuellement et produit des résultats très compétitifs sur MSCOCO, Pascal VOC 2007 et Pascal VOC 2012 avec des taux d'évaluation en temps réel. Une analyse plus approfondie suggère que notre modèle performe particulièrement bien lorsque la localisation fine des objets est souhaitée. Nous soutenons que cet avantage provient du nombre significativement plus grand de régions d'intérêt disponibles par rapport aux autres méthodes. Le code source est disponible à l'adresse suivante : https://github.com/lachlants/denet