Die Behebung der Diskrepanz zwischen Trainings- und Testauflösung

Die Datenverstärkung (data augmentation) ist entscheidend für das Training von neuronalen Netzen zur Bildklassifizierung. In dieser Arbeit wird zunächst gezeigt, dass bestehende Verstärkungen eine erhebliche Diskrepanz zwischen der typischen Größe der Objekte verursachen, die der Klassifikator während des Trainings und Tests sieht. Wir führen experimentelle Validierungen durch, die belegen, dass für eine gegebene Testauflösung das Verwenden einer niedrigeren Trainingsauflösung bessere Klassifizierungsergebnisse beim Test liefert.Anschließend schlagen wir eine einfache, aber effektive und effiziente Strategie vor, um die Leistung des Klassifikators zu optimieren, wenn sich die Trainings- und Testauflösungen unterscheiden. Diese Strategie beinhaltet lediglich eine rechnerisch günstige Feinabstimmung (fine-tuning) des Netzes auf der Testauflösung. Dies ermöglicht es, starke Klassifikatoren mit kleinen Trainingsbildern zu trainieren. Zum Beispiel erreichen wir eine Top-1-Akkuranz von 77,1 % auf ImageNet mit einem ResNet-50, das auf 128x128-Bildern trainiert wurde, und 79,8 % mit einem Modell, das auf 224x224-Bildern trainiert wurde. Zudem erhalten wir bei Verwendung zusätzlicher Trainingsdaten eine Akkuranz von 82,5 % mit dem ResNet-50, das auf 224x224-Bildern trainiert wurde.Umgekehrt erzielen wir bei der Schwachüberwachung (weakly-supervised pre-training) eines ResNeXt-101 32x48d anhand von 940 Millionen öffentlichen Bildern in der Auflösung 224x224 und weiterer Optimierung für die Testauflösung 320x320 eine Test-Akkuranz von 86,4 % (Top-5: 98,0 %) (Einzel-Crop). Nach bestem Wissen ist dies bislang die höchste ImageNet-Einzel-Crop-Akkuranz sowohl im Top-1- als auch im Top-5-Bereich.