HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Das Drachenjunges: Die fehlende Verbindung zwischen dem Transformer und Modellen des Gehirns

Adrian Kosowski Przemysław Uznański Jan Chorowski Zuzanna Stamirowska Michał Bartoszkiewicz

Das Drachenjunges: Die fehlende Verbindung zwischen dem Transformer und Modellen des Gehirns

Abstract

Die Beziehung zwischen Rechensystemen und dem Gehirn hat seit John von Neumann und Alan Turing Pioniertheoretiker motiviert. Uniforme, skalenfreie biologische Netzwerke wie das Gehirn verfügen über leistungsstarke Eigenschaften, darunter die Fähigkeit, sich über die Zeit zu generalisieren – ein zentrales Hindernis für maschinelles Lernen auf dem Weg zu universellen Schlussfolgerungsmodellen.Wir stellen `Dragon Hatchling' (BDH) vor, eine neue Architektur für große Sprachmodelle, die auf einem skalenfreien, biologisch inspirierten Netzwerk lokaler, wechselwirkender Neuronenpartikel basiert. BDH verbindet starke theoretische Fundamente mit einer inhärenten Interpretierbarkeit, ohne dabei die Leistungsfähigkeit von Transformer-ähnlichen Modellen zu opfern.BDH ist eine praktikable, leistungsstarke State-of-the-Art-Architektur für sequenzielles Lernen im Zustandsraum, die auf Aufmerksamkeit basiert. Neben ihrer Darstellung als Graph-Modell lässt sich BDH zudem effizient auf GPUs implementieren. Sie zeigt Transformer-ähnliche Skalierungsgesetze: empirisch erreicht BDH bei gleicher Anzahl an Parametern (10 Mio. bis 1 Mrd.) und gleicher Trainingsdatenmenge die Leistung von GPT-2 in Sprach- und Übersetzaufgaben.BDH kann als Gehirnmodell interpretiert werden. Der Arbeitsgedächtnisvorgang während der Inferenz beruht vollständig auf synaptischer Plastizität mit Hebb-Lernregel unter Verwendung von spiking Neuronen. Wir bestätigen empirisch, dass bestimmte, einzelne Synapsen stärker werden, sobald BDH ein spezifisches Konzept hört oder darüber reflektiert, während Spracheingaben verarbeitet werden. Das Neuronenwechselwirkungsnetzwerk von BDH ist ein hochmodulares Graphen mit einer schweren, typischerweise power-law-verteilen Gradverteilung. Die BDH-Architektur ist biologisch plausibel und erklärt eine mögliche Mechanismus, wie menschliche Neuronen Sprache erzeugen könnten.BDH wurde explizit für Interpretierbarkeit entworfen. Die Aktivierungsvektoren von BDH sind spärlich und positiv. Wir zeigen auf Sprachaufgaben die Monosemantizität in BDH. Die Interpretierbarkeit des Zustands – jenseits der Interpretierbarkeit einzelner Neuronen und Modellparameter – ist eine inhärente Eigenschaft der BDH-Architektur.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Das Drachenjunges: Die fehlende Verbindung zwischen dem Transformer und Modellen des Gehirns | Forschungsarbeiten | HyperAI