Die Re-Label-Methode für datenzentrisches maschinelles Lernen

Im Bereich der tiefen Lernanwendungen in der Industrie enthält unsere manuell beschriftete Datenmenge eine bestimmte Anzahl von verrauschten Daten. Um dieses Problem zu lösen und einen Score von mehr als 90 im Entwicklungsdatensatz zu erreichen, stellen wir eine einfache Methode vor, um die verrauschten Daten zu identifizieren und durch menschliche Beschriftung neu zu kennzeichnen, wobei die Modellvorhersagen als Referenz dienen. In dieser Arbeit erläutern wir unser Konzept für eine breite Palette von Tiefen-Lernaufgaben, darunter Klassifikation, Sequenztagging, Objekterkennung, Sequenzgenerierung und Click-Through-Rate-Vorhersage (Click-Through Rate Prediction). Die Evaluationsergebnisse des Entwicklungsdatensatzes und die Ergebnisse der menschlichen Bewertung bestätigen unser Ansatz.