HyperAIHyperAI
vor 2 Monaten

MixPro: Datenverstärkung mit MaskMix und fortschreitender Aufmerksamkeitseinteilung für Vision-Transformer

Zhao, Qihao ; Huang, Yangyu ; Hu, Wei ; Zhang, Fan ; Liu, Jun
MixPro: Datenverstärkung mit MaskMix und fortschreitender Aufmerksamkeitseinteilung für Vision-Transformer
Abstract

Das kürzlich vorgeschlagene Datenverstärkungsverfahren TransMix verwendet Aufmerksamkeitslabels, um visuellen Transformer (ViT) eine bessere Robustheit und Leistung zu ermöglichen. Allerdings hat TransMix zwei Mängel: 1) Die Bildabschnittsmethode von TransMix ist möglicherweise nicht für ViTs geeignet. 2) In den frühen Trainingsphasen erzeugt das Modell unzuverlässige Aufmerksamkeitskarten. TransMix nutzt diese unzuverlässigen Aufmerksamkeitskarten, um gemischte Aufmerksamkeitslabels zu berechnen, was die Leistung des Modells beeinträchtigen kann.Um die genannten Probleme zu lösen, schlagen wir MaskMix und Progressive Attention Labeling (PAL) vor, jeweils im Bild- und Labelsraum. Im Detail entwickeln wir aus der Perspektive des Bildraums MaskMix, ein Verfahren, das zwei Bilder auf der Grundlage eines patchähnlichen Gittermasken mischt. Insbesondere ist die Größe jedes Maskenpatches anpassbar und ein Vielfaches der Bildpatchgröße, was sicherstellt, dass jeder Bildpatch nur einem Bild entstammt und mehr globale Inhalte enthält. Aus der Perspektive des Labelsraums entwickeln wir PAL, das einen progressiven Faktor verwendet, um die Aufmerksamkeitsgewichte des gemischten Aufmerksamkeitslabels dynamisch neu zu gewichten.Schließlich kombinieren wir MaskMix und Progressive Attention Labeling zu unserer neuen Datenverstärkungsmethode, die wir MixPro nennen. Die experimentellen Ergebnisse zeigen, dass unsere Methode verschiedene ViT-basierte Modelle in verschiedenen Größen bei der Klassifizierung von ImageNet verbessern kann (73,8 % Top-1-Akkuranz basierend auf DeiT-T für 300 Epochen). Nach einer Vortrainierung mit MixPro auf ImageNet zeigen auch die ViT-basierten Modelle eine bessere Übertragbarkeit auf semantische Segmentierung, Objekterkennung und Instanzsegmentierung. Darüber hinaus zeigt MixPro im Vergleich zu TransMix auf mehreren Benchmarks eine größere Robustheit. Der Code ist unter https://github.com/fistyee/MixPro verfügbar.

MixPro: Datenverstärkung mit MaskMix und fortschreitender Aufmerksamkeitseinteilung für Vision-Transformer | Neueste Forschungsarbeiten | HyperAI