Lernen mit Nachbar-Konsistenz für verrauschte Labels

Neuere Fortschritte im Bereich des Deep Learning beruhen auf großen, beschrifteten Datensätzen zur Ausbildung hochkapazitiver Modelle. Die Erhebung solcher Datensätze auf zeit- und kosteneffiziente Weise führt jedoch oft zu Beschriftungsrauschen. Wir stellen eine Methode zur Lernung mit fehlerhaften Beschriftungen vor, die Ähnlichkeiten zwischen Trainingsbeispielen im Merkmalsraum nutzt und die Vorhersage jedes Beispiels dahingehend fördert, dass sie den Vorhersagen seiner nächsten Nachbarn ähnlich ist. Im Gegensatz zu Trainingsalgorithmen, die mehrere Modelle oder unterschiedliche Phasen verwenden, nimmt unser Ansatz die Form eines einfachen, zusätzlichen Regularisierungsterms an. Er lässt sich als induktive Variante des klassischen, transduktiven Algorithmus der Beschriftungspropagation interpretieren. Wir evaluieren unsere Methode umfassend auf Datensätzen mit sowohl synthetischem (CIFAR-10, CIFAR-100) als auch realistischem (mini-WebVision, WebVision, Clothing1M, mini-ImageNet-Red) Rauschen und erzielen dabei wettbewerbsfähige oder state-of-the-art Genauigkeiten auf allen getesteten Datensätzen.