Cold PAWS: Unüberwachte Klassenentdeckung und Lösung des Cold-Start-Problems für semi-supervised Learning

Bei vielen Anwendungen des maschinellen Lernens stellt die Beschriftung von Datensätzen eine mühsame und zeitaufwändige Aufgabe dar. Obwohl Forschung gezeigt hat, dass semi-supervised Lernverfahren in der Computer Vision mit nur wenigen Etiketten hohe Genauigkeit erzielen können, wurde bisher wenig Aufmerksamkeit darauf verwendet, wie Bilder innerhalb eines Datensatzes zur Beschriftung ausgewählt werden sollten. In diesem Paper stellen wir einen neuartigen Ansatz vor, der auf etablierten Techniken des selbstüberwachten Lernens, der Clustertechniken und der Mannigfaltigkeitslernverfahren basiert und diese Herausforderung adressiert, nämlich die Auswahl einer informativen Teilmenge von Bildern für die erste Beschriftung – ein Problem, das als „Cold-Start“- oder unsupervisiertes selektives Beschriftungsproblem bekannt ist. Wir testen unseren Ansatz an mehreren öffentlich verfügbaren Datensätzen, nämlich CIFAR10, Imagenette, DeepWeeds und EuroSAT, und beobachten eine verbesserte Leistung sowohl bei überwachten als auch bei semi-supervierten Lernstrategien, wenn unsere Strategie zur Etikettenauswahl eingesetzt wird, im Vergleich zur zufälligen Stichprobenziehung. Zudem erzielen wir für die betrachteten Datensätze eine überlegene Leistung mit einem viel einfacheren Ansatz im Vergleich zu anderen Methoden aus der Literatur.