HyperAIHyperAI
vor 9 Tagen

Langschwänzige visuelle Erkennung mittels Gaussischer Wolken-Logit-Anpassung

{Yang Lu, Yiu-ming Cheung, Mengke Li}
Langschwänzige visuelle Erkennung mittels Gaussischer Wolken-Logit-Anpassung
Abstract

Langtailige Daten stellen weiterhin eine große Herausforderung für tiefe neuronale Netze dar, obwohl diese bei ausgewogenen Datensätzen erhebliche Erfolge erzielt haben. Wir beobachten, dass eine herkömmliche Trainingsstrategie auf langtailigen Datensätzen mit der Kreuzentropieverlustfunktion die räumliche Verteilung der selteneren Tail-Klassen stark komprimiert, wodurch die Klassifizierung von Tail-Klassen-Beispielen erschwert wird. Darüber hinaus kann die ursprüngliche Kreuzentropieverlustfunktion nur begrenzt Gradienten propagieren, da der Gradient in Softmax-Form schnell gegen Null strebt, wenn sich die Logits unterscheiden. Dieses Phänomen wird als Softmax-Sättigung bezeichnet. Während dies für das Training auf ausgewogenen Datensätzen nachteilig ist, kann es gezielt genutzt werden, um die Gültigkeit von Beispielen in langtailigen Datensätzen anzupassen und somit den verzerrten Embedding-Raum bei langtailigen Problemen zu korrigieren. Um dies zu erreichen, schlagen wir im vorliegenden Artikel die Gaussian Clouded Logit Adjustment (GCL) vor, bei der die Logits verschiedener Klassen durch Gauß-Störungen mit unterschiedlicher Amplitude gestört werden. Wir definieren die Störungsamplitude als „Wolkengröße“ und setzen für die Tail-Klassen relativ große Wolkengrößen an. Eine große Wolkengröße verringert die Softmax-Sättigung und macht die Tail-Klassen-Beispiele gleichzeitig aktiver sowie den Embedding-Raum vergrößert. Um den Bias in einem Klassifikator zu verringern, schlagen wir außerdem eine klassenbasierte effektive Anzahl-Sampling-Strategie mit nachträglichem Klassifikator-Neutrainieren vor. Umfassende Experimente auf Standard-Datensätzen bestätigen die überlegene Leistung des vorgeschlagenen Ansatzes. Der Quellcode ist unter https://github.com/Keke921/GCLLoss verfügbar.