Effiziente Visionstransformer | SOTA | HyperAI

Effiziente ViTs zielen darauf ab, die Effizienz von Vision Transformers (ViTs) zu verbessern, ohne die Transformer-Architektur zu ändern. Die wichtigsten Techniken hierfür sind die Sparsifizierung von Schlüssel- und Abfragesignalen, das Pruning von Tokens sowie das Merging von Tokens. Dieser Ansatz kann die Rechenkosten und den Speicherverbrauch erheblich reduzieren, während gleichzeitig die Modellleistung gewahrt bleibt. Dadurch werden Trainings- und Inferenzgeschwindigkeiten auf großen Datensätzen verbessert, was sie für Echtzeit-Bildverarbeitung und Computer-Vision-Aufgaben in ressourcenbeschränkten Umgebungen besonders geeignet macht.

ImageNet-1K (with DeiT-S)

ImageNet-1K (with DeiT-T)

ImageNet-1K (With LV-ViT-S)