HyperAIHyperAI

Command Palette

Search for a command to run...

Sequencer: Deep LSTM für die Bildklassifikation

Yuki Tatsunami Masato Taki

Zusammenfassung

In der jüngsten Forschung im Bereich des Computer Vision hat die Einführung des Vision Transformer (ViT) die Entwicklung zahlreicher architektonischer Ansätze rasch revolutioniert: ViT erreichte state-of-the-art-Leistungen im Bildklassifikationsbereich durch die Nutzung von Self-Attention, wie sie aus der natürlichen Sprachverarbeitung bekannt ist, während MLP-Mixer durch einfache mehrschichtige Perzeptronen konkurrenzfähige Ergebnisse erzielte. Im Gegensatz dazu haben mehrere Studien gezeigt, dass durch sorgfältige Neugestaltung klassischer convolutionaler neuronaler Netze (CNNs) Leistungen erzielt werden können, die mit denen von ViT vergleichbar sind, ohne auf diese neuartigen Konzepte zurückgreifen zu müssen. In diesem Kontext wächst das Interesse an der Frage, welcher induktive Bias für die Aufgaben des Computer Vision geeignet ist. Hier präsentieren wir Sequencer, eine neuartige und wettbewerbsfähige Architektur, die als Alternative zu ViT eine neue Perspektive auf diese Frage eröffnet. Im Gegensatz zu ViTs nutzt Sequencer anstelle von Self-Attention-Schichten LSTMs zur Modellierung langreichweitiger Abhängigkeiten. Zudem stellen wir eine zweidimensionale Variante des Sequencer-Moduls vor, bei der eine LSTM in vertikale und horizontale LSTMs zerlegt wird, um die Leistung weiter zu steigern. Trotz seiner Einfachheit zeigen mehrere Experimente, dass Sequencer beeindruckende Ergebnisse erzielt: Sequencer2D-L mit 54 M Parameter erreicht auf ImageNet-1K eine Top-1-Accuracy von 84,6 %. Darüber hinaus zeigen wir, dass Sequencer eine hervorragende Transferierbarkeit sowie eine robuste Anpassungsfähigkeit an verdoppelte Auflösung aufweist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp