BART: Bayes'sche additive Regressionsbäume

Wir entwickeln ein bayesianisches „Summe-von-Bäumen“-Modell („sum-of-trees“), bei dem jeder Baum durch eine Regularisierungspriori eingeschränkt wird, um ein schwaches Lernmodell zu sein. Die Anpassung und Inferenz werden durch einen iterativen bayesianischen Backfitting-MCMC-Algorithmus durchgeführt, der Stichproben aus einer A-posteriori-Verteilung generiert. Im Wesentlichen ist BART ein nichtparametrischer bayesianischer Regressionsansatz, der dimensionsanpassbare zufällige Basisfunktionen verwendet. Inspiriert von Ensemble-Methoden im Allgemeinen und Boosting-Algorithmen im Besonderen, wird BART durch ein statistisches Modell definiert: eine Priori-Verteilung und eine Likelihood-Funktion. Dieser Ansatz ermöglicht die vollständige A-posteriori-Inferenz, einschließlich punktweiser und intervallbasierter Schätzungen der unbekannten Regressionsfunktion sowie der Randeffekte potentieller Prädiktoren. Durch das Verfolgen von Prädiktor-Inklusionshäufigkeiten kann BART auch für eine modellfreie Variablenauswahl verwendet werden. Die zahlreichen Eigenschaften von BART werden anhand eines Vergleichs mit konkurrierenden Methoden auf 42 verschiedenen Datensätzen, eines Simulationsversuchs und eines Klassifikationsproblems im Bereich der Arzneimittelentdeckung veranschaulicht.