HyperAI

In den letzten Jahrzehnten stand die Entwicklung leistungsfähigerer neuronaler Architekturen und gleichzeitig die Gestaltung effektiver Optimierungsalgorithmen zur effizienten Training dieser Modelle im Zentrum der Forschungsanstrengungen zur Steigerung der Fähigkeiten von maschinellen Lernmodellen. Trotz der jüngsten Fortschritte, insbesondere bei der Entwicklung von Sprachmodellen (Language Models, LMs), bestehen weiterhin fundamentale Herausforderungen und ungelöste Fragen hinsichtlich der Fähigkeit solcher Modelle, kontinuierlich zu lernen, zu speichern, sich selbst zu verbessern und „effektive Lösungen“ zu finden.In diesem Paper stellen wir ein neues Lernparadigma vor, das sogenannte Nested Learning (NL), das ein Modell kohärent als Satz verschachtelter, mehrstufiger und/oder paralleler Optimierungsprobleme darstellt, wobei jedes Problem über eine eigene „Kontextfluss-Struktur“ verfügt. NL zeigt, dass herkömmliche tiefen Lernmethoden aus Daten lernen, indem sie ihren eigenen Kontextfluss komprimieren, und erläutert, wie im-Kontext-Lernen (in-context learning) in großen Modellen entsteht. NL weist einen neuen Weg (eine zusätzliche Dimension im tiefen Lernen) zur Gestaltung ausdrucksstarkerer Lernalgorithmen mit mehr „Ebenen“ auf, was zu höherstufigen Fähigkeiten im im-Kontext-Lernen führt.Neben seiner neurowissenschaftlich plausiblen und mathematisch transparenten (white-box) Natur betonen wir die Bedeutung des Ansatzes durch drei zentrale Beiträge:(1) Deep Optimizers: Basierend auf NL zeigen wir, dass etablierte, auf Gradienten basierende Optimierer (z. B. Adam, SGD mit Impuls) in Wirklichkeit assoziative Speichermodule sind, die darauf abzielen, die Gradienten mittels Gradientenabstieg zu komprimieren. Auf dieser Erkenntnis aufbauend präsentieren wir eine Reihe ausdrucksstarkerer Optimierer mit tiefem Gedächtnis und/oder leistungsfähigeren Lernregeln.(2) Self-Modifying Titans: Ausnutzend die Erkenntnisse von NL über Lernalgorithmen, stellen wir ein neuartiges Sequenzmodell vor, das lernt, sich selbst zu modifizieren, indem es seinen eigenen Aktualisierungsalgorithmus erlernt.(3) Continuum Memory System: Wir schlagen eine neue Formulierung eines Speichersystems vor, die die traditionelle Sichtweise von „langfristigem/ kurzfristigem Gedächtnis“ verallgemeinert. Durch die Kombination unseres selbstmodifizierenden Sequenzmodells mit dem Continuum Memory System präsentieren wir ein Lernmodul namens HoPE, das vielversprechende Ergebnisse bei Sprachmodellierung, kontinuierlichem Lernen und der Verarbeitung langer Kontexte erzielt.

Verschachteltes Lernen: Die Illusion tiefer Lernarchitekturen

Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Verschachteltes Lernen: Die Illusion tiefer Lernarchitekturen

Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

Abstract

KI mit KI entwickeln

Hyper Newsletters