Unüberwachte Datenverstärkung für Konsistenztraining

Halbüberwachtes Lernen hat kürzlich viel Versprechen gezeigt, um tiefen Lernmodelle zu verbessern, wenn etikettierte Daten knapp sind. Ein gängiges Merkmal neuer Ansätze ist die Verwendung von Konsistenztraining auf einer großen Menge an unetikettierten Daten, um die Modellvorhersagen invariant gegenüber Eingangsräuschen zu machen. In dieser Arbeit präsentieren wir eine neue Perspektive darauf, wie man unetikettierte Beispiele effektiv mit Rauschen versehen kann und argumentieren, dass die Qualität des Rauschens, insbesondere das durch fortgeschrittene Datenverstärkungsmethoden erzeugte, eine entscheidende Rolle im halbüberwachten Lernen spielt. Durch den Austausch einfacher Rauschungsoperationen gegen fortgeschrittene Datenverstärkungsmethoden wie RandAugment und Rückübersetzung (back-translation) bringt unser Ansatz erhebliche Verbesserungen bei sechs Sprachaufgaben und drei Bilderkennungsaufgaben unter demselben Konsistenztraining-Rahmen. Bei der Textklassifizierung auf dem IMDb-Datensatz erreicht unsere Methode bei nur 20 etikettierten Beispielen einen Fehlerquoten von 4,20 %, was besser ist als der Stand der Technik bei 25.000 etikettierten Beispielen. Bei einem Standardbenchmark für halbüberwachtes Lernen, CIFAR-10, übertrifft unsere Methode alle bisherigen Ansätze und erreicht einen Fehlerquoten von 5,43 % bei nur 250 Beispielen. Unsere Methode kombiniert sich auch gut mit Transferlearning, z.B. beim Feinjustieren von BERT, und führt zu Verbesserungen im Hochdatenbereich wie ImageNet, sei es bei nur 10 % etikettierter Daten oder bei einem vollständig etikettierten Datensatz mit zusätzlichen 1,3 Millionen unetikettierten Beispielen. Der Quellcode ist unter https://github.com/google-research/uda verfügbar.