HyperAI
Back to Headlines

Künstliche Intelligenz: Neue Architektur ermöglicht besseres Erinnern und Anpassen

vor 14 Tagen

Kann KI wirklich ein Gedächtnis entwickeln, das sich wie unseres anpasst? Meta hat mit CoCoMix (Jihoon et al., 2025) einen wichtigen Schritt in Richtung konzeptionellen Lernens gemacht. Dies ermöglicht es Modellen, die Konzepte hinter Wörtern zu verstehen, anstatt nur den nächsten Token vorherzusagen. Trotz dieser Fortschritte bleiben jedoch wichtige Fragen offen, insbesondere die Fähigkeit der Modelle, fein differenzierte oder faktische Informationen nach dem Training und während der tatsächlichen Anwendung zu erinnern. Ein einfaches Beispiel dafür ist die Frage: „Wann haben wir in unserem 2-Millionen-Token-Gespräch Pinocchios berühmte wachsende Nase besprochen?“ Ein hochentwickeltes Modell kann diese Frage nicht beantworten, wenn die Antwort außerhalb seines Kontextfensters liegt. Probleme mit der aktuellen Grundlage: Die Transformers Die Transformers (Vaswani et al., 2017) sind in der modernen KI-Landschaft weit verbreitet. Seit ihrem Durchbruch haben sie sich in vielen Bereichen als Architektur der Wahl etabliert. Sie wurden erfolgreich auf visuelle Aufgaben (Dosovitskiy et al., 2020), zeitreihenbasierte Prognosen (Zerveas et al., 2021) und Natürlichsprachverarbeitung (Rogers et al., 2021) angewendet. Allerdings begannen auch diese universellen Modelle, ihre Grenzen zu zeigen, als unsere Abhängigkeit von großen Modellen zunahm und die Rechenkosten explodierten. Das Hauptproblem liegt in der Aufmerksamkeitsstruktur der Transformers, die quadratisch kostspielig ist und daher ein enges „Arbeitsgedächtnis“ hat. Diese engen Kontextfenster erschweren es, umfangreiche Dokumente zu verstehen, da frühere Informationen einfach verloren gehen. Darüber hinaus fehlt den herkömmlichen Transformers die Fähigkeit, sich während der Verarbeitung neuer Daten anzupassen. Ähnlich wie bei Google Maps, das zwar den kürzesten Weg findet, aber nicht weiß, dass auf der Strecke Bauarbeiten stattfinden, so können diese Modelle nicht dynamisch auf neue Bedingungen reagieren. Die Lösung: Titans Statt sich nur auf eine Einschränkung zu konzentrieren, nahmen die Forscher einen breiteren Blick: Wie schaffen intelligente Systeme, wie das menschliche Gehirn, das Gedächtnis und die Anpassung an neue Situationen? Es geht nicht darum, ein riesiges, immer zugängliches Gedächtnis zu haben, sondern vielmehr um eine flexible Struktur, in der verschiedene Komponenten zusammenarbeiten, um unterschiedliche Arten von Informationen und Erfahrungen zu verwalten. Die Architektur der Titans (Behrouz et al., 2025) basiert auf einem kooperativen Team spezialisierter Gedächtnissysteme: Kurzzeitgedächtnis (STM): Dieser Spezialist ist detailorientiert und fokussiert sich auf den unmittelbaren Kontext, ähnlich wie beim Standard-Attention-Block. Langzeitgedächtnismodul (LMM): Dies ist die spannendste Neuerung. Es lernt und passt sich während der Inferenz an. Im Gegensatz zum herkömmlichen Lernen, bei dem die Parameter während des Trainings angepasst werden, ändert das LMM seine Parameter dynamisch, indem es nur auf interne Signale reagiert. Persistierendes Gedächtnis (PM): Dieses System hält task-spezifisches Wissen fest, das während des Haupttrainings gelernt wurde. Es bleibt statisch, bietet aber eine wesentliche Grundlage für die beiden anderen Systeme. Implementierung der GedächtnisMODULE Das Langzeitgedächtnismodul (LMM) ist die Kernkomponente, die die Fähigkeit zur dynamischen Anpassung ermöglicht. Es verwendet eine assoziative Verlustfunktion, um "Schlüssel" (Cues) mit "Werten" (Informationen) zu verbinden. Der Gradient der Verlustfunktion misst, wie überrascht das Modell über die aktuelle Eingabe ist. Ein großer Gradient bedeutet, dass die Eingabe unerwartet ist. Um die Lernrichtung zu optimieren, verwendet das LMM einen Momentum-Term, der auf vergangene Überraschungen basiert. Die endgültige Parameteraktualisierung berücksichtigt sowohl die aktuelle Überraschung als auch die vergangenen Trends und ermöglicht es, alte, unwichtige Informationen zu vergessen. Architekturvarianten der Titans Google-Forscher untersuchten drei Hauptwege, wie die drei GedächtnisMODULE angeordnet werden können: Gedächtnis als Kontext (MAC): Hier erstellt Titans einen erweiterten Kontext für das STM. Das Eingabesequenzsegment wird auf einen Query abgebildet, der historischen Kontext aus dem LMM abruft. Diese Informationen werden dann mit dem statischen PM und dem aktuellen Segment kombiniert und in das STM-Eingangssequenz eingespeist. Gedächtnis als Gate (MAG): In diesem Design werden Informationen aus STM und LMM durch ein dynamisches Gate gemischt. Die Eingabesequenz wird in zwei Pfaden verarbeitet: Einer Pfad nutzt das STM mit Sliding Window Attention, der andere Pfad führt durch das LMM. Gedächtnis als Layer (MAL): Hier wird das LMM als erste Verarbeitungsschicht eingesetzt, die die Sequenz vor dem STM verändert. Die Sequenz wird chunkweise verarbeitet und die Parameter des LMM dynamisch aktualisiert. Erträge der neuen Architektur: Ergebnisse und Erkenntnisse Die Titans-Modelle zeigten erstaunliche Ergebnisse in verschiedenen Benchmarks: Sprachfähigkeit: Dank des dynamischen LMM zeigen die Titans ein tieferes Verständnis von Sprache und Kontext. Sie übertrafen starke Baseline-Modelle wie Transformer++ und die neuesten rekurrenten Modelle in Sprachmodellierung und Intuitivität. S-NIAH Aufgabe: Titans-Modelle, einschließlich des isolierten neuralen Gedächtnisses (LMM), erhielten hohe Abrufraten selbst bei 16.000 Tokens, während andere Modelle ihre Genauigkeit mit wachsender Sequenzlänge verloren. Komplexe Reasoning-Aufgaben: Bei der BABILong-Benchmark (Kuratov et al., 2024) zeigte der MAC-Architektur-Titan nicht nur gute Leistungen, sondern übertraf sogar große Modelle wie GPT-4 und Llama 3.1–70B. Titans erreichte sogar 70% Genauigkeit bei 10 Millionen Tokens. Zeitreihenprognose: Auch in diesem Bereich, bekannt für chaotische und sich verändernde Muster, hielt sich das LMM gut gegen spezialisierte Modelle, einschließlich jener auf Mamba (vorherige SOTA) basierend. DNA-Modellierung: Die Architektur zeigte starke Ergebnisse in der DNA-Modellierung, was darauf hindeutet, dass ein gut gehandhabtes Gedächtnis nicht nur in sprachbezogenen Aufgaben, sondern auch in anderen Bereichen grundlegend ist. Schlussfolgerungen und abschließende Gedanken Die Untersuchung der Titans-Architektur war eine packende Reise. Es ist erfrischend, Forschung zu sehen, die über das bloße Skalieren hinausgeht und stattdessen erforscht, wie Gedächtnis und Lernen in anpassungsfähigeren, menschenähnlicheren Weisen funktionieren könnten. Googles Tradition, grundlegende Innovationen voranzutreiben, setzt sich hier fort, vom Erfinden der Transformers bis hin zur Überarbeitung der Inferenz-Lernmethoden. Trotz dieser vielversprechenden Ergebnisse ist der heutige KI-Markt viel wettbewerbsintensiver als 2017. Neue Ideen, egal wie brillant, müssen sich stärker beweisen, nicht nur in Bezug auf Leistung, sondern auch Effizienz, Einfachheit und Akzeptanz in der Community. Dennoch machen die Titans ein starkes Argument für eine Zukunft, in der Modelle nicht nur mit dem denken, was sie bereits wissen, sondern sich dynamisch anpassen, während sie Daten verarbeiten. Unabhängig davon, ob dies der nächste „wirf einfach Attention drauf“-Moment wird, ist es ein vielversprechender Schritt in Richtung einer intelligenteren KI. Bewertung durch Branchen-Innerkreis und Firmenprofile Industry-Insider loben die Innovationskraft der Titans-Architektur und sehen in ihr ein großes Potenzial für die Zukunft der KI. Googles langjährige Erfahrung in der Entwicklung grundlegender KI-Architekturen, wie die Transformers, verleiht der Forschung zusätzliches Gewicht. Allerdings ist die Akzeptanz in der Community und die Einführung von neuen Standards immer ein komplexer Prozess, insbesondere in einem so dynamischen und wettbewerbsintensiven Markt. Die Vereinfachung und die Skalierbarkeit der Titans-Modelle werden entscheidend sein, um die nächste Etappe der KI-Entwicklung einzuläuten.

Related Links