KI-Modell optimiert Leistung durch Selbstzweifel
Künstliche Intelligenz, die selbst zweifelt, wird intelligenter – so lautet das zentrale Ergebnis der neuen Forschung von Meta AI, die mit dem Ansatz „DeepConf“ (Deep Think with Confidence) eine bahnbrechende Methode zur effizienteren Problemlösung in großen Sprachmodellen vorgestellt hat. Bisher wurden komplexe Aufgaben wie Mathematik-Olympiaden oder logische Rätsel durch sogenannte „Self-Consistency“-Verfahren angegangen: Das Modell generiert Hunderte von Lösungswegen (z. B. 512), um dann die häufigste Antwort per Mehrheitsentscheidung zu wählen. Auf dem AIME 2025-Benchmark stieg die Genauigkeit von 68 % (bei einer einzigen Lösung) auf 82 % – ein beachtlicher Fortschritt. Doch die Methode ist extrem rechenintensiv: Die zusätzlichen 511 Lösungswege erzeugen fast 100 Millionen zusätzliche Token, ohne dass die Genauigkeit stetig steigt. Schlechte oder zufällige Antworten können das Ergebnis verfälschen, wie bei einer Klasse, in der die meisten Schüler raten. Um diese Effizienzprobleme zu lösen, nutzen die Forscher interne Unsicherheitsmaße des Modells – sogenannte „Confidence Signals“. Dabei wird die Unsicherheit anhand der Token-Entropie gemessen: Je geringer die Streuung der Wahrscheinlichkeitsverteilung für einen vorhergesagten Token, desto sicherer ist das Modell. Aus dieser Analyse ergibt sich eine Gesamtkonfidenz für jeden Lösungsweg. DeepConf nutzt diese Informationen, um während oder nach der Generierung die schwächsten Lösungspfade zu erkennen und zu filtern – ähnlich wie man in einer Klasse die Antworten von Schülern, die offensichtlich raten, ignorieren würde. Die Methode arbeitet in zwei Modi: Offline und Online. Im Offline-Modus werden alle Lösungspfade generiert, dann nach Konfidenz gefiltert und erst danach abgestimmt. Im Online-Modus wird bereits während der Generierung entschieden, ob ein Lösungsweg weiterverfolgt wird – sobald die Konfidenz eines Teils des Weges unter einen Schwellenwert fällt, wird der Pfad abgebrochen. Dies ermöglicht eine frühe Beendigung von unzuverlässigen Berechnungen und spart bis zu 84,7 % an Token-Generierung. Die Ergebnisse sind beeindruckend: Auf AIME 2025 erreicht GPT-OSS-120B mit DeepConf@512 eine Genauigkeit von 99,9 %, während die klassische Mehrheitsabstimmung nur 97,0 % und die Einzelpass-Methode 91,8 % erzielt. Damit zeigt DeepConf, dass „denken smarter, nicht härter“ nicht nur ein Motto, sondern eine technische Realität ist. Die Methode kombiniert hohe Genauigkeit mit erheblicher Ressourceneinsparung und demonstriert, wie Selbstzweifel in KI-Systemen zu Leistungssteigerung führen können. Industrieexperten sehen in DeepConf einen Meilenstein für die effiziente Nutzung von Test-Zeit-Rechenleistung. „Es ist der Übergang von brute-force zu intelligentem Denken“, sagt ein Experte für maschinelles Lernen bei einem führenden Tech-Unternehmen. Meta AI, ein führendes Forschungslabor im Bereich KI, hat mit DeepConf ein Werkzeug geschaffen, das nicht nur die Leistung von Sprachmodellen steigert, sondern auch deren ökonomische und ökologische Nachhaltigkeit verbessert. Die Methode könnte bald in praktischen Anwendungen wie medizinischer Diagnose, Forschung oder Softwareentwicklung Einzug halten – dort, wo Präzision und Effizienz entscheidend sind.