PCL : Apprentissage de Clusters de Propositions pour la Détection d'Objets Faiblement Supervisée

La détection d'objets faiblement supervisée (WSOD), qui utilise uniquement des annotations au niveau de l'image pour entraîner des détecteurs d'objets, est d'une importance croissante dans la reconnaissance d'objets. Dans cet article, nous proposons un nouveau réseau profond pour la WSOD. Contrairement aux réseaux précédents qui transforment le problème de détection d'objets en un problème de classification d'images en utilisant l'apprentissage par multiples instances (MIL), notre stratégie génère des clusters de propositions pour apprendre des classifieurs d'instances affinés par un processus itératif. Les propositions au sein du même cluster sont spatialement adjacentes et associées au même objet. Cela empêche le réseau de se concentrer trop sur les parties des objets plutôt que sur les objets entiers. Nous montrons d'abord que les instances peuvent être directement assignées des étiquettes d'objet ou de fond basées sur les clusters de propositions pour l'affinement des classifieurs d'instances, puis nous démontrons que traiter chaque cluster comme une petite nouvelle pochette (bag) réduit les ambiguïtés par rapport à la méthode d'affectation directe des étiquettes. L'affinement itératif des classifieurs d'instances est mis en œuvre en ligne à l'aide de plusieurs flux dans les réseaux neuronaux convolutifs, où le premier est un réseau MIL et les suivants sont destinés à l'affinement des classifieurs d'instances supervisé par le précédent. Des expériences ont été menées sur les benchmarks PASCAL VOC, ImageNet detection et MS-COCO pour la WSOD. Les résultats montrent que notre méthode surpassent significativement l'état de l'art antérieur.