Modèles fondés sur l'énergie pour la régression probabiliste profonde

Bien que la classification basée sur l’apprentissage profond soit généralement abordée à l’aide de méthodes standardisées, une grande diversité de techniques est utilisée pour la régression. En vision par ordinateur, une méthode particulièrement populaire est la régression fondée sur la confiance, qui consiste à prédire une valeur de confiance pour chaque paire entrée-cible (x,y). Bien que cette approche ait montré des résultats impressionnants, elle repose sur des choix de conception fortement dépendants de la tâche, et les confiances prédites manquent d’une interprétation probabiliste naturelle. Nous abordons ces limites en proposant une méthode de régression générale et conceptuellement simple, dotée d’une interprétation probabiliste claire. Dans notre approche, nous construisons un modèle basé sur l’énergie de la densité conditionnelle p(y|x), en utilisant un réseau de neurones profond pour prédire la densité non normalisée à partir de (x,y). Ce modèle de p(y|x) est entraîné en minimisant directement la log-vraisemblance négative associée, approximée à l’aide d’échantillonnage de Monte Carlo. Nous menons des expériences approfondies sur quatre tâches de régression en vision par ordinateur. Notre méthode surpasser directement la régression classique, ainsi que d’autres approches probabilistes et fondées sur la confiance. Notamment, notre modèle obtient une amélioration de 2,2 % en AP par rapport à Faster-RCNN pour la détection d’objets sur le jeu de données COCO, et établit un nouveau record sur la tâche de suivi visuel lorsqu’il est appliqué à l’estimation de boîtes englobantes. Contrairement aux méthodes fondées sur la confiance, notre approche s’avère également directement applicable à des tâches plus générales, telles que l’estimation de l’âge et de l’orientation de tête. Le code est disponible à l’adresse suivante : https://github.com/fregu856/ebms_regression.