Skalierbare Visionstransformer mit hierarchischem Pooling

Die kürzlich vorgeschlagenen Visuellen Transformer (ViT) mit reinem Aufmerksamkeitsmechanismus haben bei Bilderkennungsaufgaben, wie der Bildklassifizierung, vielversprechende Ergebnisse erzielt. Dennoch ist es üblich, dass das aktuelle ViT-Modell während der Inferenz eine vollständige Patch-Sequenz beibehält, was redundant ist und eine hierarchische Darstellung fehlt. Aus diesem Grund schlagen wir einen Hierarchischen Visuellen Transformer (HVT) vor, der visuelle Tokens schrittweise zusammenfasst, um die Sequenzlänge zu reduzieren und somit die Rechenkosten zu senken. Dieser Prozess gleicht dem Downsampling von Featuremaps in Faltungsneuronalen Netzen (CNNs)类似.Dies bietet den Vorteil, dass wir die Modellkapazität durch Skalierung der Dimensionen von Tiefe/Breite/Auflösung/Patchgröße erhöhen können, ohne zusätzliche rechnerische Komplexität aufgrund der verkürzten Sequenzlänge einzuführen. Zudem haben wir empirisch festgestellt, dass durchschnittlich zusammengefasste visuelle Tokens mehr diskriminierende Informationen enthalten als ein einzelner Klassentoken.Um die verbesserte Skalierbarkeit unseres HVT zu demonstrieren, führen wir umfangreiche Experimente bei der Bildklassifizierung durch. Bei vergleichbaren FLOPs übertrifft unser HVT wettbewerbsfähige Baseline-Modelle auf den Datensätzen ImageNet und CIFAR-100. Der Quellcode ist unter https://github.com/MonashAI/HVT verfügbar.注:在最后一句中,“FLOPs”是“floating point operations per second”的缩写,通常在德语文献中直接使用英文缩写。