vor 2 Monaten

Jenseits der Wiederholung: Verlängerung der Rekursionstiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Prüfungszeit

Details der Forschungsarbeit anzeigen Code anzeigen

Ivan Rodkin Daniil Orel Konstantin Smirnov Arman Bolatov Bilal Elbouardi Besher Hassan Yuri Kuratov Aydar Bulatov Preslav Nakov Timothy Baldwin

Jenseits der Wiederholung: Verlängerung der Rekursionstiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Prüfungszeit

Abstract

Schlussfolgern ist eine zentrale Fähigkeit großer Sprachmodelle, dennoch bleibt unklar, wie diese Modelle multi-Schritt-Schlussfolgerungen lernen und durchführen. In dieser Studie untersuchen wir, wie verschiedene Architekturen und Trainingsmethoden die Fähigkeit von Modellen zur multi-Schritt-Schlussfolgerung innerhalb eines Zellulären-Automat-Modells beeinflussen. Indem wir die Modelle auf Zustandssequenzen trainieren, die mit zufälligen booleschen Funktionen unter zufälligen Anfangsbedingungen generiert wurden – um eine Speicherung von Mustern auszuschließen – zeigen wir, dass die meisten neuronalen Architekturen in der Lage sind, die zugrunde liegenden Regeln abzustrahlen. Obwohl die Modelle eine hohe Genauigkeit bei der Vorhersage des nächsten Zustands erreichen, sinkt ihre Leistung stark, sobald multi-Schritt-Schlussfolgerungen erforderlich werden. Wir bestätigen, dass eine Erhöhung der Modelltiefe eine entscheidende Rolle für sequenzielle Berechnungen spielt. Zudem zeigen wir, dass eine Erweiterung der effektiven Modelltiefe durch Rekurrenz, Speicherung und Skalierung der Berechnungsressourcen zur Testzeit die Schlussfolgerungsfähigkeiten erheblich verbessert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Jenseits der Wiederholung: Verlängerung der Rekursionstiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Prüfungszeit

Ivan Rodkin Daniil Orel Konstantin Smirnov Arman Bolatov Bilal Elbouardi Besher Hassan Yuri Kuratov Aydar Bulatov Preslav Nakov Timothy Baldwin2 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Ivan Rodkin Daniil Orel Konstantin Smirnov Arman Bolatov Bilal Elbouardi Besher Hassan Yuri Kuratov Aydar Bulatov Preslav Nakov Timothy Baldwin