Amélioration de la localisation des points d'intérêt avec l'apprentissage semi-supervisé

Nous présentons deux techniques pour améliorer la localisation de points d'intérêt dans des images provenant de jeux de données partiellement annotés. Notre objectif principal est d'exploiter la situation courante où les emplacements précis des points d'intérêt ne sont fournis que pour un petit sous-ensemble de données, tandis que les étiquettes de classe pour des tâches de classification ou de régression liées aux points d'intérêt sont plus abondamment disponibles. Premièrement, nous proposons le cadre du multitâche séquentiel et l'explorons ici à travers une architecture de localisation de points d'intérêt où l'entraînement avec des étiquettes de classe sert de signal auxiliaire pour guider la localisation des points d'intérêt sur les données non étiquetées. Un aspect clé de notre approche est que les erreurs peuvent être rétropropagées à travers un modèle complet de localisation de points d'intérêt. Deuxièmement, nous proposons et explorons une technique d'apprentissage non supervisé pour la localisation de points d'intérêt basée sur la prédiction par un modèle de points d'intérêt équivariants par rapport aux transformations appliquées à l'image. Nous montrons que ces techniques améliorent considérablement la prédiction des points d'intérêt et permettent d'apprendre des détecteurs efficaces même lorsque seule une petite fraction du jeu de données possède des étiquettes de points d'intérêt. Nous présentons des résultats sur deux jeux de données synthétiques et quatre jeux de données réels, comprenant des mains et des visages, et rapportons un nouveau niveau d'excellence sur deux jeux de données en conditions réelles, par exemple, avec seulement 5 % des images étiquetées, nous surpassons l'état actuel de l'art formé sur le jeu de données AFLW (Annotated Faces in-the-Wild).