HyperAIHyperAI

Command Palette

Search for a command to run...

Das Imitationspiel: Der Turing-Maschinen-Imitator ist länge-verallgemeinerbar Schlussfolgerer

Zhouqi Hua Wenwei Zhang Chengqi Lyu Yuzhe Gu Songyang Gao Kuikun Liu Kai Chen

Zusammenfassung

Längenverallgemeinerung, die Fähigkeit, Probleme mit längeren Sequenzen als jenen zu lösen, die während des Trainings beobachtet wurden, stellt eine zentrale Herausforderung für Transformer-basierte große Sprachmodelle (LLM) dar. Obwohl bisherige Studien hauptsächlich datengetriebene Ansätze für arithmetische Operationen und symbolische Manipulationsaufgaben untersucht haben, neigen diese Ansätze dazu, aufgabenbezogen zu sein und über ein begrenztes Gesamtleistungsspektrum zu verfügen. Um eine allgemeinere Lösung anzustreben, konzentriert sich dieser Artikel auf einen breiteren Fall von berechenbaren Denkaufgaben, d.h., Aufgaben, die Algorithmen lösen können und somit auch von der Turing-Maschine gelöst werden können. Aus dieser Perspektive schlägt der Artikel Turing-Maschinen-Imitationslernen (TAIL) vor, um die Längenverallgemeinerungsfähigkeit von LLMs zu verbessern. TAIL synthetisiert Datenketten des Denkprozesses (CoT), die den Ablauf einer Turing-Maschine durch Computerprogramme nachahmen. Dabei werden die Schritte der Schlussfolgerung in atomare Zustände linear erweitert, um das Kurzschlusslernen zu verringern, und es wird ein explizites Speicherzugriffssystem eingeführt, um die Schwierigkeiten bei dynamischem und langfristigem Datenzugriff in elementaren Operationen zu reduzieren. Um die Zuverlässigkeit und Universalität von TAIL zu überprüfen, erstellen wir einen anspruchsvollen synthetischen Datensatz, der 8 Klassen von Algorithmen und 18 Aufgaben abdeckt. Ohne zusätzliche Verfeinerungen verbessert TAIL erheblich die Längenverallgemeinerungsfähigkeit sowie die Leistung von Qwen2.5-7B bei verschiedenen Aufgaben unter Verwendung nur synthetischer Daten, wobei es frühere Methoden und DeepSeek-R1 übertrifft. Die experimentellen Ergebnisse zeigen, dass die Kernkonzepte der Turing-Maschine – nicht jedoch die Denkstile – unerlässlich für TAIL zur Längenverallgemeinerung sind. Durch diese Konzepte zeigt das Modell Les- und Schreibverhalten in seinen Aufmerksamkeitsschichten, das den Eigenschaften der Turing-Maschine entspricht. Diese Arbeit bietet eine vielversprechende Richtung für zukünftige Forschungen im Bereich des Lernens von LLM-Schlussfolgerungen aus synthetischen Daten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Das Imitationspiel: Der Turing-Maschinen-Imitator ist länge-verallgemeinerbar Schlussfolgerer | Paper | HyperAI