Régression ordinaire profonde probabiliste basée sur les processus Gaussiens

Grâce à leur puissance d’expression exceptionnelle pour les données complexes, les approches fondées sur les réseaux de neurones profonds (DNN) constituent actuellement l’état de l’art pour les problèmes de régression ordinale, dont l’objectif est de classer des instances dans des catégories ordonnées. Toutefois, les DNN ne sont pas capables de modéliser les incertitudes ni de fournir des interprétations probabilistes. À l’inverse, les processus gaussiens (GPs), en tant que modèle probabiliste, offrent une estimation naturelle des incertitudes, mais souffrent d’un manque de scalabilité sur de grands jeux de données. Ce papier adapte la régression classique basée sur les GPs au cadre de la régression ordinale en utilisant à la fois une vraisemblance ordinale conjuguée et non conjuguée. À partir de cette formulation, il propose un réseau de neurones profonds doté d’une couche de GPs en haut, entraîné de manière end-to-end par descente de gradient stochastique, tant pour les paramètres du réseau neuronal que pour ceux du GP. Les paramètres de la fonction de vraisemblance ordinale sont appris comme des paramètres du réseau neuronal, permettant ainsi au cadre proposé de produire des fonctions de vraisemblance ajustées aux ensembles d’entraînement et de fournir des prédictions probabilistes pour les points de test. Les résultats expérimentaux sur trois benchmarks réels — notation d’esthétique d’images, évaluation historique d’images et estimation de groupe d’âge — démontrent que, en termes d’erreur absolue moyenne, l’approche proposée surpasse les méthodes de régression ordinale de pointe tout en offrant une estimation de confiance pour les prédictions.