vor 3 Monaten

Mamba-360: Übersicht über Zustandsraummodelle als Transformer-Alternative für die Modellierung langer Sequenzen: Methoden, Anwendungen und Herausforderungen

Badri Narayana Patro, Vijay Srinivas Agneeswaran

Abstract

Sequenzmodellierung ist ein zentraler Bereich in zahlreichen Disziplinen, darunter Natural Language Processing (NLP), Spracherkennung, Zeitreihenprognose, Musikgenerierung und Bioinformatik. Rekurrente Neuronale Netze (RNNs) und Long Short-Term Memory-Netze (LSTMs) dominierten traditionell Aufgaben der Sequenzmodellierung wie maschinelle Übersetzung oder Named Entity Recognition (NER). Mit der Entwicklung von Transformers hat sich jedoch ein Paradigmenwechsel ergeben, da diese eine überlegene Leistung erzielen. Dennoch leiden Transformers unter einer Aufmerksamkeitskomplexität von $O(N^2)$ und Schwierigkeiten bei der Berücksichtigung induktiver Vorkenntnisse (inductive bias). Um diese Herausforderungen anzugehen, wurden mehrere Varianten vorgeschlagen, die spektrale Netze oder Faltungen (convolutions) nutzen und sich in verschiedenen Anwendungsbereichen bewährt haben. Dennoch zeigen sie weiterhin Schwierigkeiten bei der Verarbeitung sehr langer Sequenzen. Zustandsraummodelle (State Space Models, SSMs) haben sich in diesem Kontext als vielversprechende Alternativen für die Sequenzmodellierung etabliert, insbesondere mit dem Aufkommen von S4 und dessen Varianten wie S4nd, Hippo, Hyena, Diagonal State Spaces (DSS), Gated State Spaces (GSS), Linear Recurrent Units (LRU), Liquid-S4, Mamba und anderen. In dieser Übersichtsarbeit klassifizieren wir die grundlegenden SSMs anhand dreier Paradigmen: Gating-Architekturen, Strukturaufbau-Architekturen und rekurrente Architekturen. Darüber hinaus beleuchten wir die vielfältigen Anwendungen von SSMs in Bereichen wie Computer Vision, Videoanalyse, Audio-, Sprach- und Sprachverarbeitung (insbesondere bei der Modellierung langer Sequenzen), Medizin (einschließlich Genomik), Chemie (z. B. Arzneimittelentwicklung), Empfehlungssysteme sowie Zeitreihenanalyse, einschließlich tabellarischer Daten. Zudem fassen wir die Leistungsfähigkeit von SSMs auf Benchmark-Datensätzen wie Long Range Arena (LRA), WikiText, GLUE, Pile, ImageNet, Kinetics-400, sstv2 sowie Video-Datensätze wie Breakfast, COIN, LVU und diverse Zeitreihen-Datensätze zusammen. Die Projektseite zur Mamba-360-Arbeit ist unter folgender URL verfügbar: \url{https://github.com/badripatro/mamba360}.