HyperAIHyperAI

Command Palette

Search for a command to run...

gSwin: Gated MLP Vision Model mit hierarchischer Struktur aus verschobenen Fenstern

Mocho Go Hideyuki Tachibana

Zusammenfassung

Nach dem Erfolg im Sprachbereich wird der Selbst-Attention-Mechanismus (Transformer) kürzlich auch im Bereich der Bildverarbeitung eingesetzt und erzielt dort erhebliche Fortschritte. Parallel dazu wird auch der mehrschichtige Perzeptron (MLP) als weiterer Ansatz in der Bildverarbeitung erforscht. Diese Architekturen, die über traditionelle CNNs hinausgehen, erregen derzeit zunehmend Aufmerksamkeit, und es wurden zahlreiche Methoden vorgeschlagen. Als Architektur, die Parameter-Effizienz mit Leistungsfähigkeit sowie Lokalität und Hierarchie im Bereich der Bilderkennung verbindet, schlagen wir gSwin vor, das die beiden Ströme – Swin-Transformer und (Multi-Head-)gMLP – integriert. Wir zeigen, dass unser gSwin auf drei visuellen Aufgaben – Bildklassifikation, Objekterkennung und semantische Segmentierung – eine höhere Genauigkeit erzielt als der Swin-Transformer, wobei das Modell kleiner ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp