Adaloss : Fonction de perte adaptative pour la localisation des points d'intérêt

La localisation de points d'intérêt est un problème complexe en vision par ordinateur avec de nombreuses applications. Les méthodes récentes basées sur l'apprentissage profond ont montré des résultats améliorés en régressant des cartes de probabilité plutôt que les coordonnées directement. Cependant, le réglage de la précision de ces cibles de régression pendant l'entraînement est une tâche fastidieuse car il crée un compromis entre la facilité d'entraînement et la précision de la localisation. L'utilisation de cibles précises introduit un biais d'échantillonnage important et rend donc l'entraînement plus difficile, tandis que l'utilisation de cibles imprécises entraîne des détecteurs de points d'intérêt peu fiables. Dans cet article, nous présentons « Adaloss », une fonction objectif qui s'adapte au cours de l'entraînement en mettant à jour la précision des cibles en fonction des statistiques d'entraînement. Cette approche ne nécessite pas le réglage de paramètres spécifiques au problème et montre une stabilité accrue lors de l'entraînement ainsi qu'une meilleure précision de localisation lors de l'inférence. Nous démontrons l'efficacité de notre méthode proposée dans trois applications différentes de la localisation de points d'intérêt : 1) la tâche ardue consistant à détecter précisément les extrémités des sondes dans les images radiographiques médicales, 2) la localisation d'instruments chirurgicaux dans les images endoscopiques, et 3) la localisation de caractéristiques faciales dans des images prises en conditions réelles, où nous obtenons des résultats à l'état de l'art sur le jeu de données benchmark 300-W.