Mixup: Jenseits der empirischen Risikominimierung

Große tiefe Neuronale Netze sind leistungsfähig, zeigen aber unerwünschtes Verhalten wie Memorierung und Anfälligkeit für feindliche Beispiele (adversarial examples). In dieser Arbeit schlagen wir Mixup vor, ein einfaches Lernprinzip, um diese Probleme zu lindern. Im Wesentlichen trainiert Mixup ein neuronales Netz auf konvexen Kombinationen von Paaren von Beispielen und deren Labels. Auf diese Weise regularisiert Mixup das neuronale Netz, sodass es zwischen den Trainingsbeispielen einfaches lineares Verhalten bevorzugt. Unsere Experimente mit den Datensätzen ImageNet-2012, CIFAR-10, CIFAR-100, Google Commands und UCI zeigen, dass Mixup die Generalisierung der aktuellen besten neuronalen Netzarchitekturen verbessert. Wir stellen außerdem fest, dass Mixup die Memorierung von fehlerhaften Labels reduziert, die Robustheit gegenüber feindlichen Beispielen erhöht und die Trainierung von generativen feindlichen Netzen (generative adversarial networks) stabilisiert.