BART : Arbres de régression bayésiens additifs

Nous développons un modèle bayésien de « somme d'arbres » où chaque arbre est contraint par une loi a priori de régularisation à être un faible apprenant, et l'ajustement et l'inférence sont réalisés via un algorithme MCMC (Markov Chain Monte Carlo) itératif de rétroajustement bayésien qui génère des échantillons à partir d'une loi a posteriori. En réalité, BART (Bayesian Additive Regression Trees) est une approche de régression bayésienne non paramétrique qui utilise des éléments de base aléatoires adaptatifs en dimension. Inspirée par les méthodes d'ensemble en général, et par les algorithmes de boosting en particulier, BART est définie par un modèle statistique : une loi a priori et une fonction de vraisemblance. Cette approche permet une inférence postérieure complète, incluant des estimations ponctuelles et d'intervalle de la fonction de régression inconnue ainsi que des effets marginaux des prédicteurs potentiels. En suivant les fréquences d'inclusion des prédicteurs, BART peut également être utilisée pour la sélection de variables sans modèle. Les nombreuses caractéristiques de BART sont illustrées par une comparaison avec des méthodes concurrentes sur 42 jeux de données différents, par une expérience de simulation et sur un problème de classification pour la découverte de médicaments.