Nichtparametrische Vorhersage von Sichtzuweisungen mit Unterstützungsmustern zur semi-supervised Lernung visueller Merkmale

In diesem Paper wird eine neue Methode zum Lernen durch Vorhersage von View-Zuweisungen mit Unterstützung durch Beispielbilder (PAWS) vorgestellt. Die Methode trainiert ein Modell, um eine Konsistenzverlustfunktion zu minimieren, die sicherstellt, dass verschiedene Ansichten derselben unlabeled Instanz ähnliche Pseudolabels erhalten. Die Pseudolabels werden nicht-parametrisch generiert, indem die Repräsentationen der Bildansichten mit denen einer Menge zufällig ausgewählter gelabelter Bilder verglichen werden. Die Distanz zwischen den Ansichtsrepräsentationen und den Repräsentationen der gelabelten Bilder dient zur Gewichtung der Klassenlabels, die wir als weiche Pseudolabels interpretieren. Durch diese nicht-parametrische Einbeziehung gelabelter Beispiele erweitert PAWS die Distanzmetrik-Verlustfunktion, die in selbstüberwachten Methoden wie BYOL und SwAV verwendet wird, auf den semi-supervised Kontext. Trotz der Einfachheit des Ansatzes übertrifft PAWS andere semi-supervised Methoden über verschiedene Architekturen hinweg und erreicht für ein ResNet-50 auf ImageNet, das mit entweder 10 % oder 1 % der Labels trainiert wurde, eine neue State-of-the-Art-Leistung mit 75,5 % beziehungsweise 66,5 % Top-1-Accuracy. Zudem benötigt PAWS 4 bis 12 Mal weniger Trainingszeit als die bisher besten Methoden.