Verschachteltes Lernen: Die Illusion tiefer Lernarchitekturen
Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

Abstract
In den letzten Jahrzehnten stand die Entwicklung leistungsfähigerer neuronaler Architekturen und gleichzeitig die Gestaltung effektiver Optimierungsalgorithmen zur effizienten Training dieser Modelle im Zentrum der Forschungsanstrengungen zur Steigerung der Fähigkeiten von maschinellen Lernmodellen. Trotz der jüngsten Fortschritte, insbesondere bei der Entwicklung von Sprachmodellen (Language Models, LMs), bestehen weiterhin fundamentale Herausforderungen und ungelöste Fragen hinsichtlich der Fähigkeit solcher Modelle, kontinuierlich zu lernen, zu speichern, sich selbst zu verbessern und „effektive Lösungen“ zu finden.In diesem Paper stellen wir ein neues Lernparadigma vor, das sogenannte Nested Learning (NL), das ein Modell kohärent als Satz verschachtelter, mehrstufiger und/oder paralleler Optimierungsprobleme darstellt, wobei jedes Problem über eine eigene „Kontextfluss-Struktur“ verfügt. NL zeigt, dass herkömmliche tiefen Lernmethoden aus Daten lernen, indem sie ihren eigenen Kontextfluss komprimieren, und erläutert, wie im-Kontext-Lernen (in-context learning) in großen Modellen entsteht. NL weist einen neuen Weg (eine zusätzliche Dimension im tiefen Lernen) zur Gestaltung ausdrucksstarkerer Lernalgorithmen mit mehr „Ebenen“ auf, was zu höherstufigen Fähigkeiten im im-Kontext-Lernen führt.Neben seiner neurowissenschaftlich plausiblen und mathematisch transparenten (white-box) Natur betonen wir die Bedeutung des Ansatzes durch drei zentrale Beiträge:(1) Deep Optimizers: Basierend auf NL zeigen wir, dass etablierte, auf Gradienten basierende Optimierer (z. B. Adam, SGD mit Impuls) in Wirklichkeit assoziative Speichermodule sind, die darauf abzielen, die Gradienten mittels Gradientenabstieg zu komprimieren. Auf dieser Erkenntnis aufbauend präsentieren wir eine Reihe ausdrucksstarkerer Optimierer mit tiefem Gedächtnis und/oder leistungsfähigeren Lernregeln.(2) Self-Modifying Titans: Ausnutzend die Erkenntnisse von NL über Lernalgorithmen, stellen wir ein neuartiges Sequenzmodell vor, das lernt, sich selbst zu modifizieren, indem es seinen eigenen Aktualisierungsalgorithmus erlernt.(3) Continuum Memory System: Wir schlagen eine neue Formulierung eines Speichersystems vor, die die traditionelle Sichtweise von „langfristigem/ kurzfristigem Gedächtnis“ verallgemeinert. Durch die Kombination unseres selbstmodifizierenden Sequenzmodells mit dem Continuum Memory System präsentieren wir ein Lernmodul namens HoPE, das vielversprechende Ergebnisse bei Sprachmodellierung, kontinuierlichem Lernen und der Verarbeitung langer Kontexte erzielt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.