vor 9 Tagen

Nachkalkulation der posterioren Wahrscheinlichkeit für unbalancierte Datensätze

Junjiao Tian, Yen-Cheng Liu, Nathan Glaser, Yen-Chang Hsu, Zsolt Kira

Abstract

Neuronale Netze können schlechte Leistungen erbringen, wenn die Verteilung der Trainingslabels stark unbalanciert ist oder wenn die Testdaten von der Trainingsverteilung abweichen. Um den durch diese Unbalancierung verursachten Verschiebung der Testlabelverteilung zu begegnen, betrachten wir das Problem aus der Perspektive eines optimalen Bayes-Klassifikators und leiten eine nachträgliche Prior-Rebalancierungstechnik ab, die mittels einer KL-Divergenz-basierten Optimierung gelöst werden kann. Diese Methode ermöglicht eine flexible, nachträgliche Anpassung von Hyperparametern, die effizient an einem Validierungsset eingestellt werden kann und effektiv die Klassifikationsgrenze anpasst, um der Unbalancierung entgegenzuwirken. Wir kombinieren diese Methode zudem mit bestehenden Ansätzen zur Behandlung von Likelihood-Verschiebungen und interpretieren diese erneut aus derselben bayesschen Perspektive. Dadurch zeigen wir, dass unsere Methode beide Probleme einheitlich bewältigen kann. Der resultierende Algorithmus lässt sich bequem auf probabilistische Klassifikationsaufgaben anwenden, unabhängig von der zugrundeliegenden Architektur. Unsere Ergebnisse auf sechs unterschiedlichen Datensätzen und fünf verschiedenen Architekturen erreichen den Stand der Technik hinsichtlich der Genauigkeit, einschließlich auf großskaligen, stark unbalancierten Datensätzen wie iNaturalist für die Klassifikation und Synthia für die semantische Segmentierung. Die Implementierung finden Sie unter: https://github.com/GT-RIPL/UNO-IC.git