HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

CoT-Space: Ein theoretisches Rahmenwerk für internes langsames Denken mittels Verstärkungslernen

Zeyu Gan Hao Yi Yong Liu

CoT-Space: Ein theoretisches Rahmenwerk für internes langsames Denken mittels Verstärkungslernen

Abstract

Reinforcement Learning (RL) ist zu einem entscheidenden Ansatz für die Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle (Large Language Models, LLMs) geworden. Ein erheblicher theoretischer Wissenslücke bleibt jedoch bestehen, da herkömmliche tokenbasierte RL-Frameworks nicht mit der auf Schlussfolgerungsebene angelegten Natur komplexer, mehrschrittiger Denkprozesse wie Chain-of-Thought (CoT) übereinstimmen. Um dieser Herausforderung zu begegnen, stellen wir CoT-Space vor – ein neuartiges theoretisches Framework, das die Schlussfolgerung durch LLMs von einer diskreten Token-Vorhersageaufgabe in einen Optimierungsprozess innerhalb eines kontinuierlichen, auf Schlussfolgerungsebene basierenden semantischen Raum transformiert. Durch die Analyse dieses Prozesses sowohl aus Sicht von Rauschen als auch aus Sicht von Risiko zeigen wir, dass die Konvergenz zu einer optimalen CoT-Länge eine natürliche Folge des grundlegenden Kompromisses zwischen Unteranpassung und Überanpassung ist. Darüber hinaus liefern umfangreiche Experimente starke empirische Bestätigung unserer theoretischen Erkenntnisse. Unser Framework erläutert nicht nur kohärent empirische Phänomene wie „Überdenken“ (overthinking), sondern liefert auch eine solide theoretische Grundlage, um die zukünftige Entwicklung effektiverer und generalisierbarer Schlussfolgerungsagenten zu leiten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CoT-Space: Ein theoretisches Rahmenwerk für internes langsames Denken mittels Verstärkungslernen | Forschungsarbeiten | HyperAI