HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

SIM-CoT: Supervised Implicit Chain-of-Thought

Xilin Wei Xiaoran Liu Yuhang Zang Xiaoyi Dong Yuhang Cao Jiaqi Wang Xipeng Qiu Dahua Lin

SIM-CoT: Supervised Implicit Chain-of-Thought

Abstract

Implizite Chain-of-Thought-(CoT)-Ansätze stellen eine vielversprechende, token-effiziente Alternative zu expliziten CoT-Reasoning-Verfahren in großen Sprachmodellen (LLMs) dar. Allerdings hat ein anhaltender Leistungsunterschied die Anwendung impliziter CoT eingeschränkt. Durch die Erhöhung des Rechenaufwands impliziter CoT-Ansätze identifizieren wir ein zentrales latentes Instabilitätsproblem: Während die Anzahl impliziter Schlussfolgerungstokens erhöht wird, um die Leistung zu steigern, neigt der Trainingsprozess oft zur Instabilität und kollabiert. Unsere Analyse zeigt, dass diese Instabilität darauf zurückzuführen ist, dass die latenten Darstellungen homogen werden und ihre semantische Vielfalt verlieren – ein Versagen, das durch unzureichende Schritt-weise Supervision in bestehenden impliziten CoT-Ansätzen verursacht wird. Um dieses Problem zu lösen, schlagen wir SIM-CoT vor, ein plug-and-play-Trainingsmodul, das Schritt-weise Supervision einführt, um den latenten Schlussfolgerungsraum zu stabilisieren und zu bereichern. Insbesondere nutzt SIM-CoT während des Trainings einen Hilfs-Decoder, um jeden impliziten Token mit seinem entsprechenden expliziten Schlussfolgerungsschritt zu alignen und sicherzustellen, dass die latenten Zustände unterschiedliche und bedeutungsvolle Informationen erfassen. Der vorgeschlagene Hilfs-Decoder wird während der Inferenz entfernt, wodurch die Rechen-effizienz impliziter CoT-Verfahren unverändert bleibt und keine zusätzlichen Kosten entstehen. Zudem ermöglicht der Hilfs-Decoder eine Interpretierbarkeit des impliziten Schließens, indem jeder latente Token auf ein explizites Schlussfolgerungsvokabular projiziert wird, was eine schrittweise Visualisierung semantischer Rollen und eine Diagnose der Schlussfolgerung erlaubt. SIM-CoT verbessert sowohl die In-Domain-Genauigkeit als auch die Out-of-Domain-Stabilität verschiedener impliziter CoT-Ansätze erheblich und steigert Baselines wie Coconut um +8,2 % auf GPT-2 und CODI um +3,0 % auf LLaMA-3.1 8B. Durch ihre starke Skalierbarkeit übertrifft SIM-CoT zudem die explizite CoT-Benchmark-Leistung auf GPT-2 um 2,1 %, wobei die Token-Effizienz um das 2,3-Fache steigt, und schließt zudem signifikant die Leistungs-lücke bei größeren Modellen wie LLaMA-3.1 8B.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SIM-CoT: Supervised Implicit Chain-of-Thought | Forschungsarbeiten | HyperAI