FINE-Stichproben zum Lernen mit verrauschten Beschriftungen

Moderne tiefe neuronale Netzwerke (DNNs) erweisen sich als empfindlich gegenüber Datenmengen mit verrauschten (falschen) Klassenlabels. Robuste Techniken im Umgang mit verrauschten Labels können in zwei Kategorien eingeteilt werden: die Entwicklung von geräuschrobusten Funktionen oder die Anwendung von Geräuschreinigungsmethoden durch Erkennung verrauschter Daten. In jüngster Zeit gelten Geräuschreinigungsmethoden als die vielversprechendsten Ansätze im Bereich des Lernens mit verrauschten Labels. Trotz ihres Erfolgs basieren ihre Detektoren für falsche Labels oft mehr auf Heuristiken als auf einer strengen Theorie und erfordern einen robusten Klassifikator, um die verrauschten Daten anhand ihrer Verlustwerte vorherzusagen. In diesem Paper stellen wir einen neuartigen Detektor zur Filterung von Label-Rauschen vor. Im Gegensatz zu den meisten bestehenden Methoden konzentrieren wir uns auf die dynamischen Eigenschaften der latente Darstellungen einzelner Datenpunkte und messen die Ausrichtung zwischen der latenten Verteilung und jeder einzelnen Darstellung mittels Eigenzerlegung der Datengram-Matrix. Unser Framework, das als „Filtering Noisy Instances via their Eigenvectors“ (FINE) bezeichnet wird, bietet einen robusten Detektor, der auf ableitungsfreien, einfachen Methoden basiert und dennoch theoretische Garantien bietet. Innerhalb dieses Rahmens schlagen wir drei Anwendungen von FINE vor: einen Sample-Selection-Ansatz, einen semi-supervised Learning-Ansatz sowie eine Zusammenarbeit mit geräuschrobusten Verlustfunktionen. Experimentelle Ergebnisse zeigen, dass die vorgeschlagenen Methoden für alle drei Anwendungen auf verschiedenen Benchmark-Datensätzen konsistent die entsprechenden Baselines übertreffen.