HyperAIHyperAI
vor 17 Tagen

Vision Transformers im Jahr 2022: Ein Update zu Tiny ImageNet

Ethan Huynh
Vision Transformers im Jahr 2022: Ein Update zu Tiny ImageNet
Abstract

Die jüngsten Fortschritte bei Bild-Transformern haben beeindruckende Ergebnisse erzielt und die Lücke zwischen traditionellen CNN-Architekturen weitgehend geschlossen. Der etablierte Ansatz besteht darin, zunächst auf großen Datensätzen wie ImageNet-21k zu trainieren und anschließend auf ImageNet-1k zu feinabstimmen. Nach der Feinabstimmung untersuchen Forscher häufig die Transfer-Lern-Leistung auf kleineren Datensätzen wie CIFAR-10/100, während Tiny ImageNet bisher weitgehend außer Acht gelassen wurde. Diese Arbeit präsentiert ein aktuelles Update zur Leistung von Vision-Transformern auf Tiny ImageNet. Dabei werden die Vision Transformer (ViT), der Data Efficient Image Transformer (DeiT), der Class Attention in Image Transformer (CaiT) sowie die Swin-Transformer betrachtet. Insbesondere erreicht der Swin-Transformer mit einer Validierungsgenauigkeit von 91,35 % das derzeit beste Ergebnis. Der Quellcode ist hier verfügbar: https://github.com/ehuynh1106/TinyImageNet-Transformers