HyperAI

Wir präsentieren Cross-View Training (CVT), eine einfache, jedoch wirksame Methode für tiefes semi-supervised Learning. Bei gelabelten Beispielen wird das Modell mit dem herkömmlichen Kreuzentropie-Verlust trainiert. Bei unlabeled Beispielen führt das Modell zunächst eine Inferenz durch (als „Lehrer“ agierend), um weiche Zielwerte zu generieren. Anschließend lernt das Modell von diesen weichen Zielwerten (als „Schüler“ agierend). Im Gegensatz zu vorherigen Ansätzen integrieren wir mehrere zusätzliche Schüler-Vorhersage-Schichten in das Modell. Die Eingabe jeder Schüler-Schicht ist eine Teilnetzwerk-Unterstruktur des gesamten Modells, das jeweils nur einen eingeschränkten Blick auf die Eingabe hat (z. B. nur eine Region eines Bildes sieht). Die Schüler können vom Lehrer (dem vollständigen Modell) lernen, da dieser mehr von jedem Beispiel sieht. Gleichzeitig verbessern die Schüler die Qualität der Repräsentationen, die der Lehrer verwendet, da sie lernen, mit begrenzten Daten Vorhersagen zu treffen. In Kombination mit Virtual Adversarial Training erreicht CVT die derzeit beste Leistung auf semi-supervised CIFAR-10 und semi-supervised SVHN. Wir wenden CVT zudem auf fünf Aufgaben im Bereich der natürlichen Sprachverarbeitung an, wobei Hunderte Millionen an unlabeled Sätzen verwendet werden. Auf allen Aufgaben übertrifft CVT deutlich das reine überwachte Lernen und führt zu Modellen, die entweder die derzeit beste Leistung übertreffen oder mit ihr konkurrieren.

Benchmark	Methodik	Metriken
chunking-on-conll-2000	ELMo + Multi-Task	Exact Span F1: 96.83
chunking-on-conll-2000	CVT+Multi-Task+Large	Exact Span F1: 96.98

Cross-View-Training für semi-supervised Learning

{Quoc V. Le Thang Luong Kevin Clark}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters