SimPLE: Similar Pseudo Label Exploitation for Semi-Supervised Classification

Eine häufige Situation bei Klassifizierungsaufgaben liegt darin, dass eine große Menge an Daten für das Training zur Verfügung steht, jedoch nur ein kleiner Teil mit Klassenlabels annotiert ist. Ziel des semi-supervised Lernens in diesem Kontext ist es, die Klassifizierungsgenauigkeit durch Ausnutzung von Informationen nicht nur aus den gelabelten Daten, sondern auch aus einer großen Menge unlabeled Daten zu verbessern. Neuere Arbeiten haben erhebliche Fortschritte erzielt, indem sie die Konsistenzbedingung zwischen unterschiedlich augmentierten gelabelten und unlabeled Daten erforscht haben. Anschließend an diesen Ansatz schlagen wir ein neuartiges unsupervisiertes Ziel vor, das sich auf die bisher wenig untersuchte Beziehung zwischen hochkonfidenten unlabeled Daten konzentriert, die sich untereinander ähnlich sind. Das neu vorgeschlagene Pair Loss minimiert die statistische Distanz zwischen hochkonfidenten Pseudolabels, deren Ähnlichkeit einen bestimmten Schwellenwert überschreitet. Durch die Kombination des Pair Loss mit den Techniken der MixMatch-Familie zeigt unser vorgeschlagenes SimPLE-Verfahren erhebliche Leistungssteigerungen gegenüber früheren Algorithmen auf CIFAR-100 und Mini-ImageNet und erreicht auf CIFAR-10 und SVHN die Leistungsfähigkeit der derzeitigen State-of-the-Art-Methoden. Darüber hinaus übertrifft SimPLE auch die aktuellen State-of-the-Art-Methoden im Transfer-Learning-Szenario, bei dem Modelle mit Gewichten initialisiert werden, die auf ImageNet oder DomainNet-Real vortrainiert wurden. Der Quellcode ist unter github.com/zijian-hu/SimPLE verfügbar.