Arbres de régression pour des intervalles de prédiction rapides et adaptatifs

Les modèles prédictifs commettent des erreurs. Il est donc nécessaire de quantifier l’incertitude associée à leurs prédictions. L’inférence conformiste est apparue comme un outil puissant pour construire des régions de prédiction statistiquement valides autour de prédictions ponctuelles, mais son application naïve aux problèmes de régression conduit à des régions non adaptatives. De nouveaux scores conformistes, souvent fondés sur des régresseurs quantiliques ou des estimateurs de densité conditionnelle, visent à surmonter cette limitation. Bien qu’ils soient utiles pour construire des bandes de prédiction, ces scores sont déconnectés de l’objectif initial : quantifier l’incertitude autour d’un modèle prédictif arbitraire. Ce papier présente une nouvelle famille de méthodes, indépendante du modèle, pour calibrer les intervalles de prédiction dans les problèmes de régression, tout en garantissant une couverture locale. Notre approche repose sur la recherche de la partition la plus grossière de l’espace des caractéristiques qui approche la couverture conditionnelle. Cette partition est construite en entraînant des arbres de régression et des forêts aléatoires sur des scores de conformité. Notre méthode se distingue par sa polyvalence, puisqu’elle s’applique à divers scores de conformité et à différentes configurations de prédiction, et démontre une meilleure échelle de traitement et une performance supérieure par rapport aux méthodes de référence sur des jeux de données simulés et réels. Nous proposons un package Python, clover, qui implémente nos méthodes via une interface standard compatible avec scikit-learn.