vor 2 Monaten

Alle Token zählen: Token-Labeling für die bessere Ausbildung von Vision-Transformern

Jiang, Zihang ; Hou, Qibin ; Yuan, Li ; Zhou, Daquan ; Shi, Yujun ; Jin, Xiaojie ; Wang, Anran ; Feng, Jiashi

Abstract

In dieser Arbeit stellen wir Token-Labeling vor – ein neues Trainingsziel für die Ausbildung von hochleistungsfähigen Vision Transformers (ViTs). Im Gegensatz zum üblichen Trainingsziel von ViTs, das den Klassifizierungsverlust anhand eines zusätzlichen, trainierbaren Klassen-Tokens berechnet, nutzt unser vorgeschlagener Ansatz alle Bild-Patch-Tokens, um den Trainingsverlust in dichter Form zu berechnen. Genauer gesagt reformuliert Token-Labeling das Problem der Bildklassifizierung in mehrere tokenbasierte Erkennungsprobleme und weist jedem Patch-Token eine individuelle, standortspezifische Überwachung zu, die durch einen Maschinenannotator generiert wird. Experimente zeigen, dass Token-Labeling die Leistung verschiedener ViT-Modelle über einen breiten Spektrum klar und konsistent verbessern kann. An einem Beispiel mit einem Vision Transformer mit 26 Millionen lernfähigen Parametern erreicht das Modell bei Verwendung von Token-Labeling eine Top-1-Akkuratesse von 84,4 % auf ImageNet. Dieses Ergebnis kann durch leichte Skalierung des Modellumfangs auf 150 Millionen weiter erhöht werden, wodurch es sich um das kleinst dimensionierte Modell handelt, das unter den bisherigen Modellen (250 Millionen+) eine Akkuratesse von 86 % erreicht hat. Wir zeigen auch, dass Token-Labeling die Generalisierungsfähigkeit der prätrainierten Modelle bei nachgelagerten Aufgaben mit dichter Vorhersage, wie z.B. semantischer Segmentierung, klar verbessern kann. Unser Code und alle Trainingsdetails werden öffentlich zur Verfügung gestellt unter https://github.com/zihangJiang/TokenLabeling.