vor 17 Tagen

Sequencer: Deep LSTM für die Bildklassifikation

Yuki Tatsunami, Masato Taki

Abstract

In der jüngsten Forschung im Bereich des Computer Vision hat die Einführung des Vision Transformer (ViT) die Entwicklung zahlreicher architektonischer Ansätze rasch revolutioniert: ViT erreichte state-of-the-art-Leistungen im Bildklassifikationsbereich durch die Nutzung von Self-Attention, wie sie aus der natürlichen Sprachverarbeitung bekannt ist, während MLP-Mixer durch einfache mehrschichtige Perzeptronen konkurrenzfähige Ergebnisse erzielte. Im Gegensatz dazu haben mehrere Studien gezeigt, dass durch sorgfältige Neugestaltung klassischer convolutionaler neuronaler Netze (CNNs) Leistungen erzielt werden können, die mit denen von ViT vergleichbar sind, ohne auf diese neuartigen Konzepte zurückgreifen zu müssen. In diesem Kontext wächst das Interesse an der Frage, welcher induktive Bias für die Aufgaben des Computer Vision geeignet ist. Hier präsentieren wir Sequencer, eine neuartige und wettbewerbsfähige Architektur, die als Alternative zu ViT eine neue Perspektive auf diese Frage eröffnet. Im Gegensatz zu ViTs nutzt Sequencer anstelle von Self-Attention-Schichten LSTMs zur Modellierung langreichweitiger Abhängigkeiten. Zudem stellen wir eine zweidimensionale Variante des Sequencer-Moduls vor, bei der eine LSTM in vertikale und horizontale LSTMs zerlegt wird, um die Leistung weiter zu steigern. Trotz seiner Einfachheit zeigen mehrere Experimente, dass Sequencer beeindruckende Ergebnisse erzielt: Sequencer2D-L mit 54 M Parameter erreicht auf ImageNet-1K eine Top-1-Accuracy von 84,6 %. Darüber hinaus zeigen wir, dass Sequencer eine hervorragende Transferierbarkeit sowie eine robuste Anpassungsfähigkeit an verdoppelte Auflösung aufweist.