PT4AL: Verwendung selbstüberwachter Vorab-Aufgaben für aktives Lernen

Die Etikettierung großer Datensätze ist kostspielig. Aktives Lernen zielt darauf ab, dieses Problem zu lösen, indem nur die informativsten Daten aus der unbeschrifteten Menge annotiert werden. Wir schlagen einen neuen Ansatz für aktives Lernen vor, der selbstüberwachte Vorverarbeitungsaufgaben (pretext tasks) und einen einzigartigen Datensampler nutzt, um Daten auszuwählen, die sowohl schwierig als auch repräsentativ sind. Wir entdecken, dass der Verlust einer einfachen selbstüberwachten Vorverarbeitungsaufgabe, wie beispielsweise der Vorhersage von Drehungen, eng mit dem Verlust der Hauptaufgabe korreliert. Vor Beginn der aktiven Lerniterationen wird der Vorverarbeitungsaufgaben-Modell auf dem unbeschrifteten Datensatz trainiert, und die unbeschrifteten Daten werden nach ihrem Vorverarbeitungsverlust sortiert und in Batches aufgeteilt. In jeder Iteration des aktiven Lernens wird der Hauptaufgaben-Modell verwendet, um die unsichersten Daten innerhalb eines Batches auszuwählen, die zur Annotation vorgesehen sind. Wir evaluieren unsere Methode an verschiedenen Benchmarks für Bildklassifikation und -segmentierung und erzielen überzeugende Ergebnisse auf CIFAR10, Caltech-101, ImageNet und Cityscapes. Zudem zeigen wir, dass unser Ansatz auch auf unbalancierten Datensätzen gut funktioniert und eine effektive Lösung für das Cold-Start-Problem darstellt, bei dem die Leistung des aktiven Lernens durch die zufällig ausgewählte anfängliche beschriftete Menge beeinträchtigt wird.