HyperAIHyperAI
vor 2 Monaten

Das Lernen unbalancierter Datensätze mit labelverteilungsbewusstem Marginalverlust

Kaidi Cao; Colin Wei; Adrien Gaidon; Nikos Arechiga; Tengyu Ma
Das Lernen unbalancierter Datensätze mit labelverteilungsbewusstem Marginalverlust
Abstract

Tiefe Lernalgorithmen können bei stark unbalancierten Klassifikationsdatensätzen schlecht abschneiden, wenn das Testkriterium eine gute Generalisierung auf seltene Klassen erfordert. Wir entwickeln zwei innovative Methoden, um die Leistung in solchen Szenarien zu verbessern. Erstens schlagen wir einen theoriebasierten, auf die Labelverteilung ausgerichteten Marginalverlust (LDAM) vor, der durch die Minimierung einer marginalbasierten Generalisierungsschranke motiviert ist. Dieser Verlust ersetzt das übliche Kreuzentropieziel während des Trainings und kann mit vorherigen Strategien zur Behandlung von Klassenunbalance, wie z.B. Neubewichtung oder Neuabtastung, kombiniert werden. Zweitens schlagen wir einen einfachen, aber effektiven Trainingsplan vor, der die Neubewichtung erst nach der Anfangsphase verzögert. Dies ermöglicht es dem Modell, eine initiale Darstellung zu lernen, während es einige der Komplikationen vermeidet, die mit Neubewichtung oder Neuabtastung verbunden sind. Wir testen unsere Methoden an mehreren Benchmark-Visionaufgaben, darunter dem realweltlichen unbalancierten Datensatz iNaturalist 2018. Unsere Experimente zeigen, dass jede dieser Methoden allein bereits bestehende Techniken übertrifft und ihre Kombination noch bessere Leistungsverbesserungen erreicht.