Das Imitationspiel: Der Turing-Maschinen-Imitator ist länge-verallgemeinerbar Schlussfolgerer

Längenverallgemeinerung, die Fähigkeit, Probleme mit längeren Sequenzen als jenen zu lösen, die während des Trainings beobachtet wurden, stellt eine zentrale Herausforderung für Transformer-basierte große Sprachmodelle (LLM) dar. Obwohl bisherige Studien hauptsächlich datengetriebene Ansätze für arithmetische Operationen und symbolische Manipulationsaufgaben untersucht haben, neigen diese Ansätze dazu, aufgabenbezogen zu sein und über ein begrenztes Gesamtleistungsspektrum zu verfügen. Um eine allgemeinere Lösung anzustreben, konzentriert sich dieser Artikel auf einen breiteren Fall von berechenbaren Denkaufgaben, d.h., Aufgaben, die Algorithmen lösen können und somit auch von der Turing-Maschine gelöst werden können. Aus dieser Perspektive schlägt der Artikel Turing-Maschinen-Imitationslernen (TAIL) vor, um die Längenverallgemeinerungsfähigkeit von LLMs zu verbessern. TAIL synthetisiert Datenketten des Denkprozesses (CoT), die den Ablauf einer Turing-Maschine durch Computerprogramme nachahmen. Dabei werden die Schritte der Schlussfolgerung in atomare Zustände linear erweitert, um das Kurzschlusslernen zu verringern, und es wird ein explizites Speicherzugriffssystem eingeführt, um die Schwierigkeiten bei dynamischem und langfristigem Datenzugriff in elementaren Operationen zu reduzieren. Um die Zuverlässigkeit und Universalität von TAIL zu überprüfen, erstellen wir einen anspruchsvollen synthetischen Datensatz, der 8 Klassen von Algorithmen und 18 Aufgaben abdeckt. Ohne zusätzliche Verfeinerungen verbessert TAIL erheblich die Längenverallgemeinerungsfähigkeit sowie die Leistung von Qwen2.5-7B bei verschiedenen Aufgaben unter Verwendung nur synthetischer Daten, wobei es frühere Methoden und DeepSeek-R1 übertrifft. Die experimentellen Ergebnisse zeigen, dass die Kernkonzepte der Turing-Maschine – nicht jedoch die Denkstile – unerlässlich für TAIL zur Längenverallgemeinerung sind. Durch diese Konzepte zeigt das Modell Les- und Schreibverhalten in seinen Aufmerksamkeitsschichten, das den Eigenschaften der Turing-Maschine entspricht. Diese Arbeit bietet eine vielversprechende Richtung für zukünftige Forschungen im Bereich des Lernens von LLM-Schlussfolgerungen aus synthetischen Daten.