Regressionsbäume für schnelle und adaptive Vorhersageintervalle

Vorhersagemodelle begehen Fehler. Daher besteht die Notwendigkeit, die Unsicherheit ihrer Vorhersagen zu quantifizieren. Die konforme Inferenz ist zu einem leistungsfähigen Werkzeug geworden, um statistisch gültige Vorhersagebereiche um punktuelle Vorhersagen herum zu konstruieren. Ihre naive Anwendung auf Regressionsprobleme führt jedoch zu nicht-adaptiven Bereichen. Neue konforme Scores, die oft auf Quantilregressoren oder bedingten Dichteschätzern basieren, zielen darauf ab, diese Einschränkung zu überwinden. Obwohl sie nützlich für die Erstellung von Vorhersagebändern sind, sind diese Scores vom ursprünglichen Ziel entkoppelt, die Unsicherheit um ein beliebiges prädiktives Modell zu quantifizieren. In diesem Artikel stellen wir eine neue, modellunabhängige Familie von Methoden vor, um Vorhersageintervalle bei Regressionsproblemen mit lokalen Abdeckungsgarantien zu kalibrieren. Unser Ansatz basiert auf der Suche nach der grobstufigsten Zerlegung des Merkmalsraums, die eine bedingte Abdeckung annähert. Diese Zerlegung erzeugen wir, indem wir Regressionsbäume und Random Forests auf konforme Scores trainieren. Unser Vorschlag ist vielseitig einsetzbar, da er auf verschiedene konforme Scores und Vorhersageszenarien anwendbar ist und im Vergleich zu etablierten Baselines sowohl in simulierten als auch in realen Datensätzen eine überlegene Skalierbarkeit und Leistung zeigt. Wir stellen ein Python-Paket namens clover bereit, das unsere Methoden unter Verwendung der üblichen scikit-learn-Schnittstelle implementiert.