HyperAIHyperAI
vor 17 Tagen

ConvMLP: Hierarchische convolutionale MLPs für die Vision

Jiachen Li, Ali Hassani, Steven Walton, Humphrey Shi
ConvMLP: Hierarchische convolutionale MLPs für die Vision
Abstract

MLP-basierte Architekturen, die aus einer Folge aufeinanderfolgender Multi-Layer Perceptron (MLP)-Blöcke bestehen, haben kürzlich Ergebnisse erzielt, die denen von konvolutionellen und Transformer-basierten Methoden vergleichbar sind. Allerdings verwenden die meisten dieser Ansätze räumliche MLPs, die feste Eingabedimensionen erfordern, wodurch ihre Anwendung auf nachgeschaltete Aufgaben wie Objekterkennung und semantische Segmentierung erschwert wird. Zudem beschränken einstufige Designs die Leistungsfähigkeit weiterer Aufgaben im Bereich des Computer-Vision, und vollständig verbundene Schichten verursachen einen hohen Rechenaufwand. Um diese Probleme zu bewältigen, schlagen wir ConvMLP vor: ein hierarchisches, convolutionales MLP für die visuelle Erkennung, das leichtgewichtig und stufenweise eine ko-designierte Architektur aus Konvolutionsschichten und MLPs darstellt. Insbesondere erreicht ConvMLP-S eine Top-1-Accuracy von 76,8 % auf ImageNet-1k mit lediglich 9 M Parametern und 2,4 G MACs (15 % bzw. 19 % der Werte von MLP-Mixer-B/16). Experimente zur Objekterkennung und semantischen Segmentierung zeigen zudem, dass die visuellen Darstellungen, die durch ConvMLP erlernt werden, nahtlos übertragen werden können und mit weniger Parametern konkurrenzfähige Ergebnisse erzielen. Unser Quellcode und vortrainierte Modelle sind öffentlich unter https://github.com/SHI-Labs/Convolutional-MLPs verfügbar.

ConvMLP: Hierarchische convolutionale MLPs für die Vision | Neueste Forschungsarbeiten | HyperAI