DoubleMatch: Verbesserung des halbüberwachten Lernens durch Self-Supervision

Nach dem Erfolg des überwachten Lernens gewinnt das halbüberwachte Lernen (Semi-Supervised Learning, SSL) zunehmend an Beliebtheit. SSL umfasst eine Familie von Methoden, die neben einem beschrifteten Trainingsdatensatz zudem eine umfangreiche Menge an unbeschrifteten Daten zur Modellanpassung nutzen. Die meisten jüngsten erfolgreichen SSL-Methoden basieren auf Pseudolabeling-Ansätzen: Hier werden zuverlässige Vorhersagen des Modells als Trainingslabels verwendet. Obwohl diese Ansätze auf zahlreichen Benchmark-Datensätzen beeindruckende Ergebnisse erzielt haben, weist dieser Ansatz einen Nachteil auf: Nicht alle unbeschrifteten Daten werden während des Trainings genutzt. Wir stellen einen neuen SSL-Algorithmus, DoubleMatch, vor, der die Pseudolabeling-Technik mit einer selbstüberwachten Verlustfunktion kombiniert und damit ermöglicht, sämtliche unbeschrifteten Daten im Trainingsprozess zu nutzen. Wir zeigen, dass diese Methode auf mehreren Benchmark-Datensätzen Zustand der Kunst (state-of-the-art) Genauigkeiten erreicht und gleichzeitig die Trainingszeiten gegenüber bestehenden SSL-Methoden reduziert. Der Quellcode ist unter https://github.com/walline/doublematch verfügbar.