HyperAIHyperAI

Command Palette

Search for a command to run...

vor 23 Tagen

MemMamba: Die Neubewertung von Speichermustern in State-Space-Modellen

Youjin Wang Yangjingyi Chen Jiahao Yan Jiaxuan Lu Xiao Sun

MemMamba: Die Neubewertung von Speichermustern in State-Space-Modellen

Abstract

Mit dem explosionsartigen Wachstum von Daten ist die Modellierung langer Sequenzen in Aufgaben wie der natürlichen Sprachverarbeitung und der Bioinformatik zunehmend von Bedeutung. Allerdings stehen bestehende Ansätze vor einer inhärenten Abwägung zwischen Effizienz und Speicherverbrauch. Rekurrente neuronale Netze leiden unter dem Verschwinden und Explodieren von Gradienten, was ihre Skalierbarkeit erschwert. Transformers können globale Abhängigkeiten erfassen, sind jedoch aufgrund ihrer quadratischen Komplexität eingeschränkt. Kürzlich haben selektive Zustandsraummodelle wie Mamba eine hohe Effizienz mit O(n)-Zeitkomplexität und O(1)-Rekurrenz während der Inferenz gezeigt, ihre Langzeitgedächtnisfähigkeit jedoch dekayt exponentiell. In dieser Arbeit führen wir mathematische Ableitungen und informationstheoretische Analysen durch, um systematisch den Mechanismus des Gedächtnisverfalls in Mamba zu entschlüsseln und eine grundlegende Frage zu beantworten: Was ist die Natur des Langzeitgedächtnisses von Mamba und wie gelingt es, Informationen zu bewahren? Um den Verlust entscheidender Informationen zu quantifizieren, führen wir zusätzliche Metriken für horizontale-vertikale Gedächtnisgenauigkeit ein, die sowohl die Degradation innerhalb als auch zwischen Schichten erfassen. Inspiriert durch die Art und Weise, wie Menschen beim Lesen langer Dokumente relevante Informationen verdichten und behalten, schlagen wir MemMamba vor – einen neuartigen architektonischen Ansatz, der eine Zustandszusammenfassung mit cross-layer- und cross-token-Attention integriert. Dieser Ansatz mindert das Vergessen über lange Distanzen, ohne die lineare Komplexität zu verlieren. MemMamba erreicht signifikante Verbesserungen gegenüber bestehenden Mamba-Varianten und Transformers auf Benchmarks für lange Sequenzen wie PG19 und Passkey Retrieval, gleichzeitig mit einer 48-prozentigen Steigerung der Inferenzgeschwindigkeit. Theoretische Analysen und empirische Ergebnisse belegen, dass MemMamba einen Durchbruch bei der Komplexitäts-Gedächtnis-Abwägung erzielt und damit ein neues Paradigma für die Modellierung ultralanger Sequenzen eröffnet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MemMamba: Die Neubewertung von Speichermustern in State-Space-Modellen | Forschungsarbeiten | HyperAI