HyperAIHyperAI
vor 7 Tagen

gSwin: Gated MLP Vision Model mit hierarchischer Struktur aus verschobenen Fenstern

Mocho Go, Hideyuki Tachibana
gSwin: Gated MLP Vision Model mit hierarchischer Struktur aus verschobenen Fenstern
Abstract

Nach dem Erfolg im Sprachbereich wird der Selbst-Attention-Mechanismus (Transformer) kürzlich auch im Bereich der Bildverarbeitung eingesetzt und erzielt dort erhebliche Fortschritte. Parallel dazu wird auch der mehrschichtige Perzeptron (MLP) als weiterer Ansatz in der Bildverarbeitung erforscht. Diese Architekturen, die über traditionelle CNNs hinausgehen, erregen derzeit zunehmend Aufmerksamkeit, und es wurden zahlreiche Methoden vorgeschlagen. Als Architektur, die Parameter-Effizienz mit Leistungsfähigkeit sowie Lokalität und Hierarchie im Bereich der Bilderkennung verbindet, schlagen wir gSwin vor, das die beiden Ströme – Swin-Transformer und (Multi-Head-)gMLP – integriert. Wir zeigen, dass unser gSwin auf drei visuellen Aufgaben – Bildklassifikation, Objekterkennung und semantische Segmentierung – eine höhere Genauigkeit erzielt als der Swin-Transformer, wobei das Modell kleiner ist.

gSwin: Gated MLP Vision Model mit hierarchischer Struktur aus verschobenen Fenstern | Neueste Forschungsarbeiten | HyperAI