Command Palette
Search for a command to run...
CoT-Space: Ein theoretisches Rahmenwerk für internes langsames Denken mittels Verstärkungslernen
Zeyu Gan Hao Yi Yong Liu

Abstract
Reinforcement Learning (RL) ist zu einem entscheidenden Ansatz für die Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle (Large Language Models, LLMs) geworden. Ein erheblicher theoretischer Wissenslücke bleibt jedoch bestehen, da herkömmliche tokenbasierte RL-Frameworks nicht mit der auf Schlussfolgerungsebene angelegten Natur komplexer, mehrschrittiger Denkprozesse wie Chain-of-Thought (CoT) übereinstimmen. Um dieser Herausforderung zu begegnen, stellen wir CoT-Space vor – ein neuartiges theoretisches Framework, das die Schlussfolgerung durch LLMs von einer diskreten Token-Vorhersageaufgabe in einen Optimierungsprozess innerhalb eines kontinuierlichen, auf Schlussfolgerungsebene basierenden semantischen Raum transformiert. Durch die Analyse dieses Prozesses sowohl aus Sicht von Rauschen als auch aus Sicht von Risiko zeigen wir, dass die Konvergenz zu einer optimalen CoT-Länge eine natürliche Folge des grundlegenden Kompromisses zwischen Unteranpassung und Überanpassung ist. Darüber hinaus liefern umfangreiche Experimente starke empirische Bestätigung unserer theoretischen Erkenntnisse. Unser Framework erläutert nicht nur kohärent empirische Phänomene wie „Überdenken“ (overthinking), sondern liefert auch eine solide theoretische Grundlage, um die zukünftige Entwicklung effektiverer und generalisierbarer Schlussfolgerungsagenten zu leiten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.