Détection d'objets semi-supervisée bout-en-bout avec un enseignant doux

Cet article présente une approche d’object detection semi-supervisée en boucle complète (end-to-end), en contraste avec les méthodes précédentes plus complexes à plusieurs étapes. L’entraînement en boucle complète améliore progressivement la qualité des étiquettes pseudo-marquées au cours du processus d’apprentissage progressif (curriculum), et ces étiquettes pseudo-marquées de plus en plus précises, à leur tour, favorisent l’entraînement de la détection d’objets. Nous proposons également deux techniques simples mais efficaces dans ce cadre : un mécanisme de « professeur doux » (soft teacher), dans lequel la perte de classification de chaque boîte englobante non étiquetée est pondérée par le score de classification fourni par le réseau professeur ; ainsi qu’une méthode de « jittering de boîtes » (box jittering) pour sélectionner des pseudo-boîtes fiables afin d’améliorer l’apprentissage de la régression des boîtes. Sur le benchmark COCO, l’approche proposée surpasse largement les méthodes antérieures pour divers taux de marquage, à savoir 1 %, 5 % et 10 %. De plus, notre méthode se révèle également performante lorsque la quantité de données étiquetées est relativement importante. Par exemple, elle permet d’améliorer un détecteur de base (baseline) atteignant 40,9 mAP, entraîné sur l’ensemble complet de données COCO, de +3,6 mAP, atteignant ainsi 44,5 mAP, en exploitant les 123 000 images non étiquetées de COCO. Sur le détecteur d’objets basé sur le Swin Transformer, actuellement au state-of-the-art (58,9 mAP sur test-dev), elle permet toujours une amélioration significative de la précision de détection de +1,5 mAP, atteignant 60,4 mAP, ainsi qu’une amélioration de la précision de segmentation d’instances de +1,2 mAP, atteignant 52,4 mAP. En intégrant en outre un modèle pré-entraîné sur Object365, la précision de détection atteint 61,3 mAP et celle de segmentation d’instances atteint 53,0 mAP, établissant ainsi un nouveau record d’état de l’art.