Command Palette
Search for a command to run...
Alles ist verbunden: Eine Reise durch das Memorieren zur Testzeit, Aufmerksamkeitsbias, Behaltensleistung und Online-Optimierung
Alles ist verbunden: Eine Reise durch das Memorieren zur Testzeit, Aufmerksamkeitsbias, Behaltensleistung und Online-Optimierung
Ali Behrouz Meisam Razaviyayn Peilin Zhong Vahab Mirrokni
Zusammenfassung
Die Entwicklung effizienter und wirksamer architektonischer Grundstrukturen steht im Zentrum der Forschungsanstrengungen zur Verbesserung der Fähigkeiten von Grundmodellen. Inspiriert durch das menschliche kognitive Phänomen der Aufmerksamkeitsverzerrung – die natürliche Neigung, bestimmte Ereignisse oder Reize zu priorisieren – rekonzeptualisieren wir neuronale Architekturen, darunter Transformers, Titans und moderne lineare rekurrente neuronale Netze, als assoziative Speichermodule, die eine Abbildung von Schlüsseln und Werten anhand eines internen Ziels lernen, das als Aufmerksamkeitsverzerrung bezeichnet wird. Überraschenderweise stellen wir fest, dass die meisten bestehenden Sequenzmodelle entweder (1) die Ähnlichkeit durch Skalarprodukt oder (2) L2-Regressionsziele als ihre Aufmerksamkeitsverzerrung nutzen. Gehen wir über diese Ziele hinaus, präsentieren wir eine Reihe alternativer Konfigurationen der Aufmerksamkeitsverzerrung sowie effektive Approximationen, um den Trainingsprozess zu stabilisieren. Anschließend deuten wir Vergessensmechanismen in modernen tiefen Lernarchitekturen als Form der Retentionsregularisierung und stellen eine neue Klasse von Vergessensgattern für Sequenzmodelle vor. Aufbauend auf diesen Erkenntnissen präsentieren wir Miras, einen allgemeinen Rahmen zur Gestaltung tiefer Lernarchitekturen, der vier entscheidende Gestaltungsoptionen umfasst: (i) Architektur des assoziativen Speichers, (ii) Ziel der Aufmerksamkeitsverzerrung, (iii) Retentionsgatter und (iv) Lernalgorithmus für den Speicher. Wir stellen drei neuartige Sequenzmodelle vor – Moneta, Yaad und Memora –, die die Leistungsfähigkeit bestehender linearer RNNs übertreffen, gleichzeitig aber einen schnellen, parallelisierbaren Trainingsprozess beibehalten. Unsere Experimente zeigen, dass unterschiedliche Gestaltungsoptionen in Miras Modelle mit variierenden Stärken hervorbringen. So erreichen bestimmte Instanzen von Miras herausragende Leistungen bei speziellen Aufgaben wie Sprachmodellierung, allgemeinwissenschaftlicher Schlussfolgerung und speicherintensiven Aufgaben, wobei sie sogar Transformers und andere moderne lineare rekurrente Modelle übertrumpfen.