Lernen mit featureabhängiger Etikettierungsstörung: Ein fortschreitender Ansatz

Label Noise tritt häufig in realen, großskaligen Datensätzen auf. Sie entsteht aufgrund vielfältiger Ursachen und ist heterogen sowie abhängig von den Merkmalen (feature-dependent). Die meisten bestehenden Ansätze zur Behandlung von fehlerhaften Etiketten lassen sich in zwei Kategorien einteilen: Entweder werden ideale, merkmalsunabhängige Rauschmodelle angenommen, oder die Methoden bleiben heuristisch und verfügen über keine theoretischen Garantien. In diesem Paper schlagen wir einen neuen Ansatz für eine Familie von merkmalsabhängigen Label Noise vor, die viel allgemeiner ist als die üblicherweise verwendeten i.i.d.-Label-Rauschmodelle und eine breite Palette verschiedener Rauschmuster umfasst. Ausgehend von dieser allgemeinen Rauschfamilie entwickeln wir einen fortschreitenden Algorithmus zur Etikettkorrektur, der die Etiketten iterativ korrigiert und das Modell kontinuierlich verfeinert. Wir liefern theoretische Garantien, die zeigen, dass ein Klassifikator, der mit dieser Strategie trainiert wird, für eine breite Vielzahl (unbekannter) Rauschmuster konvergiert und mit dem Bayes-Klassifikator konsistent wird. In Experimenten übertrifft unsere Methode state-of-the-art-Baselines und zeigt Robustheit gegenüber verschiedenen Rauschtypen und -niveaus.