Out-of-Bag-Schätzung
Outsourcing-SchätzungenEs handelt sich dabei um eine Methode zur Entscheidungsfindung anhand von Testdaten, die nicht im Trainingssatz enthalten waren.
Definition der ausgelagerten Schätzung
Der Bagging-Prozess des Random Forest für jeden trainierten Entscheidungsbaum g T , hat die folgende Beziehung zum Datensatz D:

Der mit einem Sternchen gekennzeichnete Teil sind die nicht ausgewählten Daten, die sogenannten Out-of-Bag-Daten (OOB). Wenn genügend Daten vorhanden sind, beträgt die Wahrscheinlichkeit, dass ein beliebiger Datensatz (xn, yn) Out-of-Bag-Daten sind:

Da der Basisklassifikator auf dem Bootstrap-Stichprobensatz von Trainingsstichproben aufbaut, erscheinen nur etwa 63,2 % des ursprünglichen Stichprobensatzes in , während die restlichen 36,8 % der Daten als Out-of-Bag-Daten verwendet werden und als Validierungssatz für den Basisklassifikator genutzt werden können.
Es wurde bewiesen, dass die Out-of-Bag-Schätzung eine unvoreingenommene Schätzung des Generalisierungsfehlers des Ensemble-Klassifikators ist. Die Bedeutung der Datensatzattribute, die Stärke des Klassifikatorsatzes und die Korrelationsberechnungen zwischen Klassifikatoren im Random-Forest-Algorithmus basieren alle auf Out-of-Bag-Daten.
Verwendung von Out-of-Pack-Schätzungen
- Wenn der Basislerner ein Entscheidungsbaum ist, können Out-of-Bag-Beispiele verwendet werden, um das Beschneiden zu unterstützen oder die Posterior-Wahrscheinlichkeit jedes Knotens im Entscheidungsbaum zu schätzen, um die Verarbeitung von Knoten mit null Trainingsbeispielen zu unterstützen.
- Wenn der Basislerner ein neuronales Netzwerk ist, können Out-of-Bag-Samples verwendet werden, um ein frühzeitiges Anhalten zu unterstützen und so eine Überanpassung zu reduzieren.