vor 2 Monaten

Komplexe Modelle mit Multi-Task Weak Supervision trainieren

Alexander Ratner; Braden Hancock; Jared Dunnmon; Frederic Sala; Shreyash Pandey; Christopher Ré

Abstract

Da maschinelles Lernen-Modelle kontinuierlich an Komplexität gewinnen, stellt die Sammlung großer, manuell beschrifteter Trainingsdatensätze eine der größten Hürden in der Praxis dar. Stattdessen werden häufig schwächere Formen der Überwachung verwendet, die zwar fehleranfällige, aber kostengünstigere Beschriftungen liefern. Diese schwachen Überwachungsquellen haben jedoch unterschiedliche und unbekannte Genauigkeiten, können korrelierte Beschriftungen ausgeben und verschiedene Aufgaben oder Granularitätsstufen betreffen. Wir schlagen einen Rahmen zur Integration und Modellierung solcher schwachen Überwachungsquellen vor, indem wir sie als Beschriftungen verschiedener verwandter Teilprobleme eines Problems betrachten, was wir als das Multi-Task-Schwache-Überwachungs-Szenario bezeichnen. Wir zeigen, dass durch die Lösung eines Matrix-Vervollständigungs-Problems die Genauigkeiten dieser Multi-Task-Quellen unter Berücksichtigung ihrer Abhängigkeitsstruktur rekonstruiert werden können, ohne dabei auf beschriftete Daten zurückzugreifen. Dies führt zu einer höherwertigen Überwachung für das Training des Endmodells. Theoretisch beweisen wir, dass sich der Generalisierungsfehler von Modellen, die mit diesem Ansatz trainiert wurden, mit der Anzahl der unbeschrifteten Datenpunkte verbessert und charakterisieren die Skalierung im Hinblick auf die Aufgaben- und Abhängigkeitsstrukturen. Anhand dreier feinkörniger Klassifikationsprobleme demonstrieren wir, dass unser Ansatz im Durchschnitt eine Genauigkeit von 20,2 Punkten über einem traditionellen überwachten Ansatz erreicht, 6,8 Punkte über einem Mehrheitsentscheid-Basisansatz und 4,1 Punkte über einer früher vorgeschlagenen Methode zur schwachen Überwachung, die Aufgaben getrennt modelliert (separately).