TResNet: Hochleistungsarchitektur für GPU-optimierte Anwendungen

Viele in den letzten Jahren entwickelte Deep-Learning-Modelle erreichen eine höhere ImageNet-Genauigkeit als ResNet50, wobei sie gleichzeitig eine geringere oder vergleichbare Anzahl an FLOPs aufweisen. Obwohl FLOPs oft als Proxy für die Netzwerkeffizienz angesehen werden, ist ResNet50 im Vergleich zu seinen jüngeren Konkurrenten bei der Messung der tatsächlichen GPU-Training- und Inferenzdurchsatzleistung typischerweise erheblich schneller und bietet damit ein besseres Durchsatz-Genauigkeits-Trade-off.In dieser Arbeit stellen wir eine Reihe architektonischer Verbesserungen vor, die darauf abzielen, die Genauigkeit von neuronalen Netzen zu steigern, ohne deren Effizienz bei GPU-Training und -Inferenz zu beeinträchtigen. Zunächst identifizieren und diskutieren wir die Engpässe, die durch FLOPs-Optimierungen verursacht werden. Anschließend schlagen wir alternative Entwürfe vor, die die Struktur und Ressourcen der GPU besser ausnutzen. Schließlich führen wir eine neue Familie von GPU-optimierten Modellen ein, die als TResNet bezeichnet werden und sowohl höhere Genauigkeit als auch bessere Effizienz im Vergleich zu früheren ConvNets erreichen.Mit einem TResNet-Modell, das eine vergleichbare GPU-Durchsatzleistung wie ResNet50 aufweist, erreichen wir eine Top-1-Genauigkeit von 80,8 % auf ImageNet. Unsere TResNet-Modelle übertragen sich zudem sehr gut und erzielen auf anspruchsvollen Datensätzen für Einzelklassifizierung wie Stanford Cars (96,0 %), CIFAR-10 (99,0 %), CIFAR-100 (91,5 %) und Oxford-Flowers (99,1 %) die derzeit beste Leistung. Zudem zeigen sie hervorragende Ergebnisse bei mehrfach-label-Klassifizierungsaufgaben sowie Objekterkennung. Die Implementierung ist unter: https://github.com/mrT23/TResNet verfügbar.