Stören, Vorhersagen & Umformulieren: Semi-supervised Learning mit noisey Student für Image Captioning

Neuere semi-supervised-Lern-(SSL)-Methoden konzentrieren sich überwiegend auf Multi-Klassen-Klassifikationsaufgaben. Bei Klassifikationsaufgaben lässt sich die Mischung von Klassenlabels während der Datenaugmentation leicht realisieren, was sich jedoch nicht unmittelbar auf strukturierte Ausgaben wie Wortfolgen übertragen lässt, wie sie beispielsweise bei der Bildbeschreibung auftreten. Noisy Student Training ist ein kürzlich vorgeschlagenes SSL-Paradigma für die Bildklassifikation, das eine Erweiterung des Selbsttrainings und des Lehrer-Schüler-Lernens darstellt. In dieser Arbeit analysieren wir den Noisy-Student-SSL-Framework ausführlich für die Aufgabe der Bildbeschreibung und erzielen dabei state-of-the-art-Ergebnisse. Der ursprüngliche Algorithmus beruht auf rechenintensiven Datenaugmentationsschritten, die eine Störung der Rohbilder und die Berechnung von Merkmalen für jedes gestörte Bild erfordern. Wir zeigen, dass selbst ohne Rohbildaugmentation die Anwendung einfacher Störungen am Modell und an den Merkmalen des Eingabebildes für das Schülermodell vorteilhaft für den SSL-Trainingsprozess ist. Zudem demonstrieren wir, wie ein Paraphrasen-Generator effektiv zur Label-Augmentation eingesetzt werden kann, um die Qualität der Pseudolabels zu verbessern und die Leistung erheblich zu steigern. Unsere endgültigen Ergebnisse im Szenario mit begrenzten gelabelten Daten (1 % der gelabelten MS-COCO-Daten) übertrafen die vorherigen state-of-the-art-Ansätze um 2,5 Punkte bei BLEU4 und um 11,5 Punkte bei CIDEr.