Command Palette
Search for a command to run...
Wave-ViT: Eine Vereinigung von Wavelets und Transformers für das visuelle Repräsentationslernen
Wave-ViT: Eine Vereinigung von Wavelets und Transformers für das visuelle Repräsentationslernen
Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei
Zusammenfassung
Der Multi-Scale Vision Transformer (ViT) ist zu einem leistungsfähigen Backbone für Aufgaben im Bereich des maschinellen Sehens geworden, wobei die Selbst-Attention-Berechnung im Transformer quadratisch im Verhältnis zur Anzahl der Eingabepatches skaliert. Daher verwenden bestehende Ansätze üblicherweise Down-Sampling-Operationen (z. B. Durchschnittspooling) auf Keys/Values, um die Rechenkosten erheblich zu reduzieren. In dieser Arbeit argumentieren wir, dass ein derart übermäßig aggressives Down-Sampling-Design nicht invertierbar ist und zwangsläufig zu Informationsverlust führt, insbesondere bei hochfrequenten Komponenten in Objekten (z. B. Texturdetails). Ausgehend von der Wellentheorie konstruieren wir einen neuen Wavelet Vision Transformer (\textbf{Wave-ViT}), der das invertierbare Down-Sampling mithilfe von Wavelet-Transformationen und das Lernen durch Selbst-Attention einheitlich formuliert. Dieser Ansatz ermöglicht ein verlustfreies Down-Sampling von Keys/Values im Rahmen des Selbst-Attention-Lernens und unterstützt somit die Suche nach einem besseren Kompromiss zwischen Effizienz und Genauigkeit. Darüber hinaus werden inverse Wavelet-Transformationen eingesetzt, um die Ausgaben der Selbst-Attention durch Aggregation lokaler Kontexte mit vergrößerter Rezeptionsfeldgröße zu stärken. Die Überlegenheit von Wave-ViT wird durch umfangreiche Experimente an mehreren visuellen Aufgaben (z. B. Bilderkennung, Objektdetektion und Instanzsegmentierung) bestätigt. Die Leistungsfähigkeit übertrifft state-of-the-art ViT-Backbones bei vergleichbaren FLOPs. Der Quellcode ist unter \url{https://github.com/YehLi/ImageNetModel} verfügbar.