Knockoffs-SPR: Reinigung der Stichprobenauswahl beim Lernen mit verrauschten Etiketten

Ein verrauschtes Trainingsset führt typischerweise zu einer Verschlechterung der Generalisierbarkeit und Robustheit von neuronalen Netzwerken. In diesem Paper stellen wir einen neuartigen, theoretisch garantierten Rahmen für die Auswahl sauberer Beispiele beim Lernen mit verrauschten Etiketten vor. Konkret führen wir zunächst eine skalierbare penalisierte Regression (Scalable Penalized Regression, SPR) ein, um die lineare Beziehung zwischen Netzwerkmerkmalen und One-Hot-Etiketten zu modellieren. In SPR werden saubere Daten durch Parameter mit Null-Mittelwertverschiebung identifiziert, die im Regressionsmodell ermittelt werden. Theoretisch zeigen wir, dass SPR unter bestimmten Bedingungen saubere Daten rekonstruieren kann. Unter allgemeinen Szenarien können diese Bedingungen jedoch nicht mehr erfüllt sein, wodurch einige verrauschte Daten fälschlicherweise als sauber ausgewählt werden. Um dieses Problem zu lösen, schlagen wir eine datenadaptiv ausgerichtete Methode vor, die SPR mit Knockoff-Filtern kombiniert (Knockoffs-SPR), die nachweislich die False-Selection-Rate (FSR) in den ausgewählten sauberen Daten kontrolliert. Zur Verbesserung der Effizienz präsentieren wir weiterhin einen Split-Algorithmus, der die gesamte Trainingsmenge in kleinere Teile aufteilt, die parallel gelöst werden können, wodurch der Rahmen skalierbar für große Datensätze wird. Während Knockoffs-SPR als Modul zur Beispiel-Auswahl in einer standardmäßigen überwachten Trainingspipeline betrachtet werden kann, integrieren wir es zudem mit einem halbüberwachten Algorithmus, um die Unterstützung von verrauschten Daten als ungekennzeichnete Daten auszunutzen. Experimentelle Ergebnisse auf mehreren Benchmark-Datensätzen sowie auf realen, verrauschten Datensätzen belegen die Wirksamkeit unseres Rahmens und stützen die theoretischen Ergebnisse von Knockoffs-SPR. Unser Code und vortrainierte Modelle sind unter https://github.com/Yikai-Wang/Knockoffs-SPR verfügbar.