CutMix: Regularisierungsstrategie zur Ausbildung starker Klassifizierer mit lokalisierbaren Merkmalen

Regionale Dropout-Strategien wurden vorgeschlagen, um die Leistung von Klassifikatoren auf Basis von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) zu verbessern. Diese Strategien haben sich als effektiv erwiesen, um das Modell dazu zu führen, weniger diskriminierende Teile von Objekten (z.B. Beine im Gegensatz zum Kopf einer Person) stärker zu berücksichtigen. Dadurch kann das Netzwerk besser verallgemeinern und seine Fähigkeiten zur Objektlokalisation verbessern. Andererseits entfernen aktuelle Methoden für den regionalen Dropout durch Überlagerung eines Patches mit entweder schwarzen Pixeln oder zufälligem Rauschen informative Pixel in Trainingsbildern. Solche Entfernungen sind nicht wünschenswert, da sie zu Informationsverlust und Ineffizienz während des Trainings führen. Wir schlagen daher die CutMix-Augmentierungsstrategie vor: Patches werden unter Trainingssituationen zwischen Bildern ausgeschnitten und eingefügt, wobei die Grundwahrheitslabels (ground truth labels) proportional zum Flächenanteil der Patches gemischt werden. Durch die effiziente Nutzung der Trainingspixel und die Erhaltung der Regularisierungseffekte des regionalen Dropouts übertrifft CutMix konsistent die bislang besten Augmentierungsstrategien bei Klassifikationsaufgaben auf CIFAR und ImageNet sowie bei der schwach überwachten Lokalisierungsaufgabe auf ImageNet. Darüber hinaus erzielt unser mit CutMix trainierter ImageNet-Klassifikator, wenn er als vortrainiertes Modell verwendet wird, konsistente Leistungsverbesserungen in den Benchmarks für Pascal-Detektion und MS-COCO-Bildunterschriftung. Wir zeigen außerdem, dass CutMix die Robustheit des Modells gegen Eingangsfehler und dessen Leistung bei der Detektion von außerhalb der Verteilung liegenden Datenpunkten verbessert. Quellcode und vortrainierte Modelle sind unter https://github.com/clovaai/CutMix-PyTorch verfügbar.