Command Palette
Search for a command to run...
Theoretische Studie zur Verbindung der internen Wahrscheinlichkeit und der Selbstkonsistenz für die Schlussfolgerung von LLM
Zhi Zhou Yuhao Tan Zenan Li Yuan Yao Lan-Zhe Guo Yu-Feng Li Xiaoxing Ma

Abstract
Test-Time-Skalierung zielt darauf ab, die Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) durch die Hinzufügung rechnerischer Ressourcen zu verbessern. Ein verbreiteter Ansatz innerhalb dieses Feldes sind samplingbasierte Methoden der Test-Zeit-Skalierung, die die Schlussfolgerungsfähigkeit durch die Generierung mehrerer Schlussfolgerungspfade für eine gegebene Eingabe während der Inferenz steigern. Trotz ihres praktischen Erfolgs sind die theoretischen Grundlagen dieser Methoden bisher kaum erforscht. In diesem Paper präsentieren wir den ersten theoretischen Rahmen zur Analyse samplingbasierter Test-Zeit-Skalierungsverfahren, der auf der Perspektive der Vertrauensschätzung basiert. Aufbauend auf diesem Rahmen analysieren wir zwei dominierende Paradigmen: Self-Consistency und Perplexität, und decken entscheidende Limitationen auf: Self-Consistency leidet unter hohem Schätzfehler, während Perplexität erhebliche Modellierungsfehler aufweist und eine mögliche Degradierung der Konvergenz des Schätzfehlers aufweist. Um diese Limitationen zu überwinden, führen wir RPC ein, eine hybride Methode, die unsere theoretischen Erkenntnisse durch zwei zentrale Komponenten nutzt: Perplexitätskonsistenz und Schlussfolgerungspruning. Perplexitätskonsistenz vereint die Stärken von Self-Consistency und Perplexität und beschleunigt die Konvergenz des Schätzfehlers von linear auf exponentiell, ohne den Modellfehler zu erhöhen. Schlussfolgerungspruning verhindert eine Degradierung, indem es geringwahrscheinliche Schlussfolgerungspfade eliminiert. Sowohl die theoretische Analyse als auch empirische Ergebnisse an sieben Benchmark-Datensätzen zeigen, dass RPC ein großes Potenzial zur Reduktion der Schlussfolgerungsfehler besitzt. Insbesondere erreicht RPC eine Schlussfolgerungsleistung, die der von Self-Consistency entspricht, wobei zugleich die Vertrauenswürdigkeit der Schätzungen verbessert und die Sampling-Kosten um 50 % reduziert werden. Der Quellcode und zusätzliche Ressourcen sind unter https://wnjxyk.github.io/RPC verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.