HyperAIHyperAI

Command Palette

Search for a command to run...

Wave-ViT: Eine Vereinigung von Wavelets und Transformers für das visuelle Repräsentationslernen

Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei

Zusammenfassung

Der Multi-Scale Vision Transformer (ViT) ist zu einem leistungsfähigen Backbone für Aufgaben im Bereich des maschinellen Sehens geworden, wobei die Selbst-Attention-Berechnung im Transformer quadratisch im Verhältnis zur Anzahl der Eingabepatches skaliert. Daher verwenden bestehende Ansätze üblicherweise Down-Sampling-Operationen (z. B. Durchschnittspooling) auf Keys/Values, um die Rechenkosten erheblich zu reduzieren. In dieser Arbeit argumentieren wir, dass ein derart übermäßig aggressives Down-Sampling-Design nicht invertierbar ist und zwangsläufig zu Informationsverlust führt, insbesondere bei hochfrequenten Komponenten in Objekten (z. B. Texturdetails). Ausgehend von der Wellentheorie konstruieren wir einen neuen Wavelet Vision Transformer (\textbf{Wave-ViT}), der das invertierbare Down-Sampling mithilfe von Wavelet-Transformationen und das Lernen durch Selbst-Attention einheitlich formuliert. Dieser Ansatz ermöglicht ein verlustfreies Down-Sampling von Keys/Values im Rahmen des Selbst-Attention-Lernens und unterstützt somit die Suche nach einem besseren Kompromiss zwischen Effizienz und Genauigkeit. Darüber hinaus werden inverse Wavelet-Transformationen eingesetzt, um die Ausgaben der Selbst-Attention durch Aggregation lokaler Kontexte mit vergrößerter Rezeptionsfeldgröße zu stärken. Die Überlegenheit von Wave-ViT wird durch umfangreiche Experimente an mehreren visuellen Aufgaben (z. B. Bilderkennung, Objektdetektion und Instanzsegmentierung) bestätigt. Die Leistungsfähigkeit übertrifft state-of-the-art ViT-Backbones bei vergleichbaren FLOPs. Der Quellcode ist unter \url{https://github.com/YehLi/ImageNetModel} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp