Sicher denken tiefgehend

Große Sprachmodelle (Large Language Models, LLMs) haben bei Schlussfolgerungsaufgaben großes Potenzial unter Verwendung von Testzeit-Skalierungsmethoden wie Self-Consistency mit Mehrheitsabstimmung gezeigt. Allerdings führt dieser Ansatz häufig zu abnehmenden Genauigkeitsgewinnen und hohen Rechenkosten. Um diesen Herausforderungen zu begegnen, stellen wir Deep Think with Confidence (DeepConf) vor – eine einfache, aber leistungsstarke Methode zur Verbesserung der Effizienz und Leistungsfähigkeit bei der Testzeit-Schlussfolgerung. DeepConf nutzt interne Vertrauenssignale des Modells, um während oder nach der Generierung qualitativ schlechte Schlussfolgerungspfade dynamisch zu filtern. Die Methode erfordert weder zusätzliche Modelltrainings noch Hyperparameter-Tuning und lässt sich nahtlos in bestehende Serving-Frameworks integrieren. Wir evaluieren DeepConf an einer Vielzahl von Schlussfolgerungsaufgaben sowie an den neuesten Open-Source-Modellen, darunter Qwen 3 und die GPT-OSS-Serie. Besonders hervorzuheben ist, dass DeepConf@512 auf anspruchsvollen Benchmarks wie AIME 2025 eine Genauigkeit von bis zu 99,9 % erreicht und die Anzahl generierter Tokens im Vergleich zur vollständigen parallelen Schlussfolgerung um bis zu 84,7 % reduziert.