DiffRate: Differenzierbare Kompressionsrate für effiziente Visionstransformer

Die Token-Kompression zielt darauf ab, große Vision-Transformer (z.B. ViTs) durch das Schneiden (Entfernen) oder Zusammenführen von Tokens zu beschleunigen. Es ist eine wichtige, aber herausfordernde Aufgabe. Obwohl kürzlich entwickelte fortschrittliche Ansätze großartige Erfolge erzielt haben, müssen sie eine Kompressionsrate (d.h. die Anzahl der zu entfernenden Tokens) sorgfältig manuell festlegen, was mühsam ist und zu suboptimalen Leistungen führt. Um dieses Problem anzugehen, schlagen wir die differenzierbare Kompressionsrate (Differentiable Compression Rate, DiffRate) vor, eine neuartige Methode zur Token-Kompression, die mehrere ansprechende Eigenschaften aufweist, die bisherige Arbeiten nicht bieten.Erstens ermöglicht DiffRate die Propagation des Gradienten der Verlustfunktion auf die Kompressionsrate, die in früheren Arbeiten als ein nicht differenzierbares Hyperparameter angesehen wurde. In diesem Fall können verschiedene Schichten automatisch unterschiedliche Kompressionsraten schichtweise lernen, ohne zusätzlichen Overhead zu verursachen. Zweitens können Token-Schneidung und -Zusammenführung in DiffRate natürlich gleichzeitig durchgeführt werden, während sie in früheren Arbeiten getrennt waren. Drittens zeigen umfangreiche Experimente, dass DiffRate den aktuellen Stand der Technik übertreffen kann.Beispielsweise erreichen wir durch Anwendung der gelernten schichtweisen Kompressionsraten auf einem standardisierten ViT-H (MAE)-Modell eine Reduktion der FLOPs um 40 % und eine Verbesserung des Durchsatzes um 1,5-fach, wobei der Genauigkeitsverlust auf ImageNet nur 0,16 % beträgt und ohne Feinabstimmung sogar bessere Ergebnisse als frühere Methoden mit Feinabstimmung erzielt werden. Die Quellcode-Dateien und Modelle sind unter https://github.com/OpenGVLab/DiffRate verfügbar.