HyperAIHyperAI

Command Palette

Search for a command to run...

Jenseits der Wiederholung: Verlängerung der Rekursionstiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Prüfungszeit

Zusammenfassung

Schlussfolgern ist eine zentrale Fähigkeit großer Sprachmodelle, dennoch bleibt unklar, wie diese Modelle multi-Schritt-Schlussfolgerungen lernen und durchführen. In dieser Studie untersuchen wir, wie verschiedene Architekturen und Trainingsmethoden die Fähigkeit von Modellen zur multi-Schritt-Schlussfolgerung innerhalb eines Zellulären-Automat-Modells beeinflussen. Indem wir die Modelle auf Zustandssequenzen trainieren, die mit zufälligen booleschen Funktionen unter zufälligen Anfangsbedingungen generiert wurden – um eine Speicherung von Mustern auszuschließen – zeigen wir, dass die meisten neuronalen Architekturen in der Lage sind, die zugrunde liegenden Regeln abzustrahlen. Obwohl die Modelle eine hohe Genauigkeit bei der Vorhersage des nächsten Zustands erreichen, sinkt ihre Leistung stark, sobald multi-Schritt-Schlussfolgerungen erforderlich werden. Wir bestätigen, dass eine Erhöhung der Modelltiefe eine entscheidende Rolle für sequenzielle Berechnungen spielt. Zudem zeigen wir, dass eine Erweiterung der effektiven Modelltiefe durch Rekurrenz, Speicherung und Skalierung der Berechnungsressourcen zur Testzeit die Schlussfolgerungsfähigkeiten erheblich verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Jenseits der Wiederholung: Verlängerung der Rekursionstiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Prüfungszeit | Paper | HyperAI