RealMix: Hin zu realistischen semi-supervised Deep Learning-Algorithmen

Semi-supervised Learning (SSL)-Algorithmen haben großes Potenzial in Trainingsregimen gezeigt, wenn die Verfügbarkeit von gelabelten Daten begrenzt ist, aber unlabeled Daten reichlich vorhanden sind. Dennoch zeigen unsere Experimente mehrere Schwächen, unter denen bisherige SSL-Algorithmen leiden. Insbesondere zeigt sich eine schlechte Leistung, wenn die Verteilungen von gelabelten und unlabeled Daten voneinander abweichen. Um diese Beobachtungen zu adressieren, entwickeln wir RealMix, das state-of-the-art-Ergebnisse auf Standard-Benchmark-Datensätzen bei unterschiedlichen Größen der gelabelten und unlabeled Datensätze erzielt und gleichzeitig die oben genannten Herausforderungen überwindet. Besonders hervorzuheben ist, dass RealMix eine Fehlerrate von 9,79 % auf CIFAR10 mit lediglich 250 Labels erreicht und der einzige SSL-Ansatz ist, der bei erheblicher Diskrepanz zwischen den Verteilungen der gelabelten und unlabeled Daten die Baseline-Leistung übertreffen kann. RealMix zeigt, wie SSL in realen Anwendungsszenarien mit begrenztem Zugang sowohl zu Daten als auch zu Rechenressourcen eingesetzt werden kann, und leitet zukünftige Forschung im Bereich SSL mit Fokus auf praktische Anwendbarkeit an.