Efficient Vits
Effiziente ViTs zielen darauf ab, die Effizienz von Vision Transformers (ViTs) zu verbessern, ohne die Transformer-Architektur zu ändern. Die wichtigsten Techniken hierfür sind die Sparsifizierung von Schlüssel- und Abfragesignalen, das Pruning von Tokens sowie das Merging von Tokens. Dieser Ansatz kann die Rechenkosten und den Speicherverbrauch erheblich reduzieren, während gleichzeitig die Modellleistung gewahrt bleibt. Dadurch werden Trainings- und Inferenzgeschwindigkeiten auf großen Datensätzen verbessert, was sie für Echtzeit-Bildverarbeitung und Computer-Vision-Aufgaben in ressourcenbeschränkten Umgebungen besonders geeignet macht.