HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Jenseits der Wiederholung: Verlängerung der Rekursionstiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Prüfungszeit

Jenseits der Wiederholung: Verlängerung der Rekursionstiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Prüfungszeit

Abstract

Schlussfolgern ist eine zentrale Fähigkeit großer Sprachmodelle, dennoch bleibt unklar, wie diese Modelle multi-Schritt-Schlussfolgerungen lernen und durchführen. In dieser Studie untersuchen wir, wie verschiedene Architekturen und Trainingsmethoden die Fähigkeit von Modellen zur multi-Schritt-Schlussfolgerung innerhalb eines Zellulären-Automat-Modells beeinflussen. Indem wir die Modelle auf Zustandssequenzen trainieren, die mit zufälligen booleschen Funktionen unter zufälligen Anfangsbedingungen generiert wurden – um eine Speicherung von Mustern auszuschließen – zeigen wir, dass die meisten neuronalen Architekturen in der Lage sind, die zugrunde liegenden Regeln abzustrahlen. Obwohl die Modelle eine hohe Genauigkeit bei der Vorhersage des nächsten Zustands erreichen, sinkt ihre Leistung stark, sobald multi-Schritt-Schlussfolgerungen erforderlich werden. Wir bestätigen, dass eine Erhöhung der Modelltiefe eine entscheidende Rolle für sequenzielle Berechnungen spielt. Zudem zeigen wir, dass eine Erweiterung der effektiven Modelltiefe durch Rekurrenz, Speicherung und Skalierung der Berechnungsressourcen zur Testzeit die Schlussfolgerungsfähigkeiten erheblich verbessert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp