HyperAIHyperAI
vor 2 Tagen

Sicher denken tiefgehend

Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
Sicher denken tiefgehend
Abstract

Große Sprachmodelle (Large Language Models, LLMs) haben bei Schlussfolgerungsaufgaben großes Potenzial unter Verwendung von Testzeit-Skalierungsmethoden wie Self-Consistency mit Mehrheitsabstimmung gezeigt. Allerdings führt dieser Ansatz häufig zu abnehmenden Genauigkeitsgewinnen und hohen Rechenkosten. Um diesen Herausforderungen zu begegnen, stellen wir Deep Think with Confidence (DeepConf) vor – eine einfache, aber leistungsstarke Methode zur Verbesserung der Effizienz und Leistungsfähigkeit bei der Testzeit-Schlussfolgerung. DeepConf nutzt interne Vertrauenssignale des Modells, um während oder nach der Generierung qualitativ schlechte Schlussfolgerungspfade dynamisch zu filtern. Die Methode erfordert weder zusätzliche Modelltrainings noch Hyperparameter-Tuning und lässt sich nahtlos in bestehende Serving-Frameworks integrieren. Wir evaluieren DeepConf an einer Vielzahl von Schlussfolgerungsaufgaben sowie an den neuesten Open-Source-Modellen, darunter Qwen 3 und die GPT-OSS-Serie. Besonders hervorzuheben ist, dass DeepConf@512 auf anspruchsvollen Benchmarks wie AIME 2025 eine Genauigkeit von bis zu 99,9 % erreicht und die Anzahl generierter Tokens im Vergleich zur vollständigen parallelen Schlussfolgerung um bis zu 84,7 % reduziert.