Think-at-Hard: Selektive latente Iterationen zur Verbesserung von Reasoning-LLMs
Tianyu Fu Yichen You Zekai Chen Guohao Dai Huazhong Yang Yu Wang

Abstract
Die Verbesserung der Schlussfolgerungsfähigkeiten großer Sprachmodelle (Large Language Models, LLMs), insbesondere unter Parameterbeschränkungen, ist entscheidend für praktische Anwendungen. Vorangegangene Arbeiten schlagen rekurrente Transformers vor, die für jeden Token eine feste Anzahl zusätzlicher Iterationen reservieren, um die Generierungsqualität zu steigern. Nach dem ersten, standardmäßigen Vorwärtsdurchlauf werden anstelle der verbalisierten Ausgaben die versteckten Zustände der letzten Schicht als Eingaben für zusätzliche Iterationen zurückgeführt, um die Vorhersagen einzelner Tokens zu verfeinern. Wir identifizieren jedoch ein latent überdenkendes Phänomen: Einfache Token-Vorhersagen, die bereits nach dem ersten Durchlauf korrekt sind, werden manchmal in späteren Iterationen fälschlicherweise korrigiert. Um diesem Problem entgegenzuwirken, stellen wir Think-at-Hard (TaH) vor, eine dynamische Methode zur latenten Überlegung, die nur bei schwierigen Tokens tiefere Iterationen durchführt. Dabei nutzt ein leichtgewichtiges neuronales Entscheidungsmodul aus, nur bei solchen Tokens, die nach dem standardmäßigen Vorwärtsdurchlauf wahrscheinlich falsch sind, zusätzliche latente Iterationen auszulösen. Während dieser latenten Iterationen verändern Low-Rank-Adaptation (LoRA)-Module das Ziel des LLMs von der allgemeinen Vorhersage des nächsten Tokens hin zur gezielten Verfeinerung schwieriger Tokens. Zudem führen wir eine Duo-Kausal-Attention-Mechanismus ein, der die Aufmerksamkeit nicht nur entlang der Token-Sequenzdimension, sondern auch entlang einer zusätzlichen Iterations-Tiefe-Dimension erweitert. Dadurch ermöglicht er einen Informationsfluss zwischen Iterationen, während gleichzeitig die vollständige parallele Verarbeitung der Sequenz erhalten bleibt. Experimente zeigen, dass TaH die Schlussfolgerungsfähigkeit von LLMs auf fünf anspruchsvollen Benchmarks steigert, ohne die Anzahl der Parameter zu erhöhen. Im Vergleich zu Baselines, die für alle Ausgabetokens zweimal iterieren, erreicht TaH eine Genauigkeitssteigerung um 8,1 bis 11,3 Prozent, wobei 94 Prozent der Tokens von der zweiten Iteration ausgenommen werden. Im Vergleich zu starken Einzeldurchlauf-Modellen wie Qwen3, die mit denselben Daten fine-tuned wurden, erzielt TaH zusätzliche Genauigkeitsgewinne von 4,0 bis 5,0 Prozent. Wenn weniger als 3 Prozent zusätzliche Parameter durch LoRA und den Iterations-Entscheider erlaubt werden, steigen die Gewinne auf 8,5 bis 12,6 Prozent beziehungsweise 5,3 bis 5,4 Prozent. Unser Quellcode ist unter https://github.com/thu-nics/TaH verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.