Apprentissage profond à rythme libre pour la détection d'objets faiblement supervisée

Dans un scénario faiblement supervisé, les détecteurs d'objets doivent être formés en utilisant uniquement des annotations au niveau de l'image. Comme la vérité terrain au niveau des boîtes englobantes n'est pas disponible, la plupart des solutions proposées jusqu'à présent reposent sur un cadre d'apprentissage itératif à multiples instances (MIL) dans lequel le classifieur actuel est utilisé pour sélectionner les boîtes avec la plus grande confiance dans chaque image, qui sont ensuite traitées comme une pseudo-vérité terrain lors de l'itération suivante de formation. Cependant, les erreurs d'un classifieur immature peuvent faire dériver le processus, introduisant généralement de nombreux faux positifs dans le jeu de données d'entraînement. Pour atténuer ce problème, nous proposons dans cet article un protocole de formation basé sur le paradigme de l'apprentissage auto-régulé. L'idée principale consiste à sélectionner itérativement un sous-ensemble d'images et de boîtes qui sont les plus fiables, et à les utiliser pour la formation. Bien que des stratégies similaires aient été adoptées ces dernières années pour les SVM et d'autres classifieurs, nous sommes les premiers à montrer qu'une approche auto-régulée peut être utilisée avec des classifieurs basés sur des réseaux profonds dans une pipeline de formation end-to-end. La méthode que nous proposons s'appuie sur l'architecture Fast-RCNN entièrement supervisée et peut être appliquée à des architectures similaires qui représentent l'image d'entrée comme un sac de boîtes. Nous présentons des résultats d'état de l'art sur Pascal VOC 2007, Pascal VOC 2010 et ILSVRC 2013. Sur ILSVRC 2013, nos résultats basés sur un réseau AlexNet à faible capacité surpassent même ceux des approches faiblement supervisées qui reposent sur des réseaux beaucoup plus puissants.