Tiefes Lernverfahren für Labelverteilungen mit Label-Unschärfe

Faltungsschichtneuronale Netze (ConvNets) haben in verschiedenen visuellen Erkennungsaufgaben ausgezeichnete Erkennungsleistungen erzielt. Ein großes, mit Labels versehenes Trainingsdatensatz ist einer der wichtigsten Faktoren für ihren Erfolg. Allerdings ist es in einigen Bereichen, wie zum Beispiel der scheinbaren Altersschätzung, der Kopfhaltungsschätzung, der Multi-Label-Klassifikation und der semantischen Segmentierung, schwierig, ausreichend viele Trainingsbilder mit präzisen Labels zu sammeln. Zum Glück gibt es unscharfe Informationen zwischen den Labels, was diese Aufgaben von traditioneller Klassifikation unterscheidet. Basierend auf dieser Beobachtung transformieren wir das Label jedes Bildes in eine diskrete Labelverteilung und lernen die Labelverteilung durch Minimierung der Kullback-Leibler-Divergenz zwischen den vorhergesagten und den wahren Labelverteilungen unter Verwendung tiefer ConvNets. Die vorgeschlagene DLDL-Methode (Deep Label Distribution Learning) nutzt die Label-Unschärfe sowohl im Feature-Lernen als auch im Klassifizierer-Lernen effektiv aus, was dazu beiträgt, dass das Netzwerk selbst bei kleineren Trainingsdatensätzen überfitting vermeidet. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Ansatz bei der Altersschätzung und der Kopfhaltungsschätzung deutlich bessere Ergebnisse als state-of-the-art-Methoden liefert. Gleichzeitig verbessert er auch die Erkennungsleistung bei Multi-Label-Klassifikations- und semantischen Segmentierungsaufgaben.