HyperAIHyperAI
vor 13 Tagen

DP-SSL: Ein Schritt hin zu robuster semi-supervised Lernverfahren mit wenigen gelabelten Samples

Yi Xu, Jiandong Ding, Lu Zhang, Shuigeng Zhou
DP-SSL: Ein Schritt hin zu robuster semi-supervised Lernverfahren mit wenigen gelabelten Samples
Abstract

Die Knappheit an gelabelten Daten stellt eine kritische Herausforderung für tiefes Lernen dar. Semi-supervised Learning (SSL) bietet eine vielversprechende Möglichkeit, ungelabelte Daten durch sogenannte Pseudolabels zu nutzen. Allerdings leidet SSL unter schlechter Leistung und Instabilität, wenn die Menge an gelabelten Daten äußerst gering ist (beispielsweise nur wenige gelabelte Proben pro Klasse). Dies könnte auf die geringe Qualität der gelernten Pseudolabels zurückzuführen sein. In diesem Artikel stellen wir eine neue SSL-Methode namens DP-SSL vor, die einen innovativen Data-Programming-(DP)-Ansatz zur Generierung probabilistischer Label für ungelabelte Daten nutzt. Im Gegensatz zu bestehenden DP-Methoden, die auf menschliche Experten angewiesen sind, um anfängliche Label-Funktionen (Labeling Functions, LFs) bereitzustellen, entwickeln wir einen auf Multiple-Choice-Learning (MCL) basierenden Ansatz, um LFs vollständig automatisch und im SSL-Stil von Grund auf zu generieren. Mit den durch die LFs erzeugten verrauschten Labels entwerfen wir ein Label-Modell, um Konflikte und Überlappungen zwischen den verrauschten Labels zu lösen, und leiten schließlich probabilistische Label für die ungelabelten Proben ab. Umfangreiche Experimente auf vier etablierten SSL-Benchmarks zeigen, dass DP-SSL zuverlässige Label für ungelabelte Daten liefern und eine bessere Klassifikationsleistung auf Testdatensätzen als bestehende SSL-Methoden erzielen kann – insbesondere dann, wenn nur wenige gelabelte Proben zur Verfügung stehen. Konkret erreicht DP-SSL bei CIFAR-10 mit lediglich 40 gelabelten Proben eine Annotationsgenauigkeit von 93,82 % für ungelabelte Daten und eine Klassifikationsgenauigkeit von 93,46 % auf dem Testdatensatz, was die bisherigen State-of-the-Art-Ergebnisse übertrifft.