Command Palette
Search for a command to run...
Kategorienbasiertes Feintuning für die Bild-Mehrfachklassifizierung mit partiellen Beschriftungen
Kategorienbasiertes Feintuning für die Bild-Mehrfachklassifizierung mit partiellen Beschriftungen
Yapeng Wang Wei Ke Tenglong Wang Xu Yang Chak Fong Chong
Zusammenfassung
Bild-Mehrfach-Klassifizierungs-Datensätze sind oft teilweise beschriftet (für jedes Beispiel sind nur die Beschriftungen einiger Kategorien bekannt). Eine gängige Lösung zur Schulung von Faltungsneuralen Netzen besteht darin, alle unbekannten Beschriftungen als negative Beschriftungen zu behandeln, was als „Negative-Modus“ bezeichnet wird. Allerdings führt dieser Ansatz dazu, dass falsche Beschriftungen ungleichmäßig über die Kategorien verteilt sind, wodurch die Leistung der binären Klassifizierung für verschiedene Kategorien unterschiedlich stark beeinträchtigt wird. Im Gegensatz dazu mag der „Ignore-Modus“, bei dem die Beiträge unbekannter Beschriftungen ignoriert werden, weniger effektiv erscheinen als der Negative-Modus, bietet jedoch den Vorteil, dass keine zusätzlichen falschen Beschriftungen in den Daten entstehen – ein Mangel, den der Negative-Modus aufweist. In diesem Artikel stellen wir einen neuen Nachschulungsansatz namens Category-wise Fine-Tuning (CFT) vor, der auf ein mit dem Negative-Modus trainiertes Modell angewendet werden kann, um dessen Leistung für jede Kategorie unabhängig zu verbessern. Konkret verwendet CFT den Ignore-Modus, um die logistischen Regressionen (LRs) im Klassifikationslayer nacheinander zu feinabstimmen. Die Anwendung des Ignore-Modus verringert die durch die falschen Beschriftungen des Negative-Modus während des Trainings verursachten Leistungsverluste. Insbesondere werden hierbei ein genetischer Algorithmus (GA) und die binäre Kreuzentropie zur Feinabstimmung der LRs eingesetzt. Die Wirksamkeit unseres Ansatzes wurde anhand des CheXpert-Wettbewerbs-Datensatzes evaluiert und erreicht, soweit uns bekannt, die derzeit besten Ergebnisse. Ein einzelnes Modell, das zur offiziellen Bewertung auf den Wettbewerbs-Server übermittelt wurde, erzielte auf dem Testset eine mAUC von 91,82 %, was den höchsten Einzelmodell-Score in der Rangliste und in der Literatur darstellt. Zudem erreicht unsere Ensemble-Methode eine mAUC von 93,33 % (der Wettbewerb wurde kürzlich abgeschlossen; wir haben das Ensemble nach Veröffentlichung und Download des Testsets auf einer lokalen Maschine evaluiert). Dies übertrifft den besten Wert in der Rangliste und in der Literatur (93,05 %). Darüber hinaus wurde die Wirksamkeit unseres Ansatzes auch an den teilweise beschrifteten Versionen des MS-COCO-Datensatzes überprüft.