HyperAI

Überabtastung

ÜberabtastungDies bedeutet, dass die Abtastzeiten für einen bestimmten Typ von Beispielen im Trainingssatz erhöht werden, um das Klassenungleichgewicht zu verringern.

Die entsprechende Methode ist das Unterabtasten, d. h. die Reduzierung der Anzahl der Abtastzeiten für einen bestimmten Typ von Beispielen im Trainingssatz.

Oversampling vs. Undersampling

Beim Oversampling werden Minderheitsbeispiele zufällig kopiert, um ihre Größe zu erhöhen. Bei der Unterabtastung wird zufällig weniger von der dominanten Klasse abgetastet.

Der Vorteil des Oversamplings besteht darin, dass es auch die Fehlermenge repliziert. Umgekehrt kann eine Unterabtastung dazu führen, dass die Varianz der unabhängigen Variablen höher erscheint als ihre tatsächliche Varianz.

Oversampling und Klassenungleichgewicht

Unter Klassenungleichgewicht versteht man die ungleichmäßige Verteilung von Klassen im Trainingssatz, der zum Trainieren eines Klassifikators verwendet wird. Beispielsweise gibt es für ein Problem der binären Klassifizierung 1.000 Trainingsbeispiele. Idealerweise sollte die Anzahl der positiven und negativen Proben ähnlich sein. Wenn es jedoch 995 positive Proben und nur 5 negative Proben gibt, bedeutet dies, dass ein Klassenungleichgewicht vorliegt.

Ein Ungleichgewicht der Kategorien führt dazu, dass das Modell nicht lernt, zwischen einigen Kategorien zu unterscheiden, was zu Abweichungen in der Beurteilung führt.

Klassenungleichgewichte können durch Überabtastung, Unterabtastung und Anpassung des θ-Werts gelöst werden. Durch Oversampling und Undersampling werden geeignete Sampling-Methoden entsprechend der Anzahl der Samples im Trainingsset erstellt, wodurch letztlich das Kategorie-Ungleichgewicht gemildert wird.

Übergeordnetes Wort: Sampling
Synonyme; Unterabtastung