HyperAIHyperAI

Command Palette

Search for a command to run...

Skalierbare Visionstransformer mit hierarchischem Pooling

Zizheng Pan Bohan Zhuang† Jing Liu Haoyu He Jianfei Cai

Zusammenfassung

Die kürzlich vorgeschlagenen Visuellen Transformer (ViT) mit reinem Aufmerksamkeitsmechanismus haben bei Bilderkennungsaufgaben, wie der Bildklassifizierung, vielversprechende Ergebnisse erzielt. Dennoch ist es üblich, dass das aktuelle ViT-Modell während der Inferenz eine vollständige Patch-Sequenz beibehält, was redundant ist und eine hierarchische Darstellung fehlt. Aus diesem Grund schlagen wir einen Hierarchischen Visuellen Transformer (HVT) vor, der visuelle Tokens schrittweise zusammenfasst, um die Sequenzlänge zu reduzieren und somit die Rechenkosten zu senken. Dieser Prozess gleicht dem Downsampling von Featuremaps in Faltungsneuronalen Netzen (CNNs)类似.Dies bietet den Vorteil, dass wir die Modellkapazität durch Skalierung der Dimensionen von Tiefe/Breite/Auflösung/Patchgröße erhöhen können, ohne zusätzliche rechnerische Komplexität aufgrund der verkürzten Sequenzlänge einzuführen. Zudem haben wir empirisch festgestellt, dass durchschnittlich zusammengefasste visuelle Tokens mehr diskriminierende Informationen enthalten als ein einzelner Klassentoken.Um die verbesserte Skalierbarkeit unseres HVT zu demonstrieren, führen wir umfangreiche Experimente bei der Bildklassifizierung durch. Bei vergleichbaren FLOPs übertrifft unser HVT wettbewerbsfähige Baseline-Modelle auf den Datensätzen ImageNet und CIFAR-100. Der Quellcode ist unter https://github.com/MonashAI/HVT verfügbar.注:在最后一句中,“FLOPs”是“floating point operations per second”的缩写,通常在德语文献中直接使用英文缩写。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Skalierbare Visionstransformer mit hierarchischem Pooling | Paper | HyperAI