Clustereignenschaft als Alternative zu Anchor-Punkten beim Lernen mit verrauschten Labels

Die Übergangsmatrix für Label-Rauschen, die die Wahrscheinlichkeiten beschreibt, mit denen ein Trainingsinstanz fälschlicherweise annotiert wird, ist entscheidend für die Gestaltung etablierter Ansätze zum Lernen mit verrauschten Labels. Bisherige Arbeiten stützen sich stark auf die Suche nach sogenannten „Anchor-Punkten“ oder deren Approximationen, definiert als Instanzen, die mit fast sicherer Wahrscheinlichkeit einer bestimmten Klasse angehören. Dennoch stellt die Identifizierung von Anchor-Punkten eine nicht triviale Aufgabe dar, und die Genauigkeit der Schätzung ist oft durch die Anzahl verfügbarer Anchor-Punkte begrenzt. In diesem Artikel schlagen wir eine alternative Herangehensweise an diese Aufgabe vor. Unser Hauptbeitrag liegt in der Entdeckung eines effizienten Schätzverfahrens, das auf einer Clusterbarkeitsbedingung basiert. Wir zeigen, dass bei clusterbaren Merkmalen die Verwendung von bis zu dritter Ordnung konsensueller Annotationen zwischen benachbarten Merkmalen ausreicht, um eine eindeutige Übergangsmatrix zu schätzen. Im Vergleich zu Methoden, die auf Anchor-Punkten basieren, nutzt unser Ansatz erheblich mehr Instanzen und erreicht eine deutlich bessere Stichprobenskomplexität. Wir demonstrieren die Genauigkeit unserer Schätzungen und deren Vorteile sowohl an synthetischen verrauschten Labels (auf CIFAR-10/100) als auch an realen, menschlich erzeugten Rauschlabels (auf Clothing1M und unserem selbst gesammelten menschlich annotierten CIFAR-10-Datensatz). Der Quellcode und die menschlich erzeugten Rauschlabels für CIFAR-10 sind unter https://github.com/UCSC-REAL/HOC verfügbar.