Command Palette
Search for a command to run...
Jenseits der Wiederholung: Verlängerung der Rekursionstiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Prüfungszeit

Abstract
Schlussfolgern ist eine zentrale Fähigkeit großer Sprachmodelle, dennoch bleibt unklar, wie diese Modelle multi-Schritt-Schlussfolgerungen lernen und durchführen. In dieser Studie untersuchen wir, wie verschiedene Architekturen und Trainingsmethoden die Fähigkeit von Modellen zur multi-Schritt-Schlussfolgerung innerhalb eines Zellulären-Automat-Modells beeinflussen. Indem wir die Modelle auf Zustandssequenzen trainieren, die mit zufälligen booleschen Funktionen unter zufälligen Anfangsbedingungen generiert wurden – um eine Speicherung von Mustern auszuschließen – zeigen wir, dass die meisten neuronalen Architekturen in der Lage sind, die zugrunde liegenden Regeln abzustrahlen. Obwohl die Modelle eine hohe Genauigkeit bei der Vorhersage des nächsten Zustands erreichen, sinkt ihre Leistung stark, sobald multi-Schritt-Schlussfolgerungen erforderlich werden. Wir bestätigen, dass eine Erhöhung der Modelltiefe eine entscheidende Rolle für sequenzielle Berechnungen spielt. Zudem zeigen wir, dass eine Erweiterung der effektiven Modelltiefe durch Rekurrenz, Speicherung und Skalierung der Berechnungsressourcen zur Testzeit die Schlussfolgerungsfähigkeiten erheblich verbessert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.