vor 15 Tagen

Theoretische Studie zur Verbindung der internen Wahrscheinlichkeit und der Selbstkonsistenz für die Schlussfolgerung von LLM

Zhi Zhou Yuhao Tan Zenan Li Yuan Yao Lan-Zhe Guo Yu-Feng Li Xiaoxing Ma

Abstract

Test-Time-Skalierung zielt darauf ab, die Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) durch die Hinzufügung rechnerischer Ressourcen zu verbessern. Ein verbreiteter Ansatz innerhalb dieses Feldes sind samplingbasierte Methoden der Test-Zeit-Skalierung, die die Schlussfolgerungsfähigkeit durch die Generierung mehrerer Schlussfolgerungspfade für eine gegebene Eingabe während der Inferenz steigern. Trotz ihres praktischen Erfolgs sind die theoretischen Grundlagen dieser Methoden bisher kaum erforscht. In diesem Paper präsentieren wir den ersten theoretischen Rahmen zur Analyse samplingbasierter Test-Zeit-Skalierungsverfahren, der auf der Perspektive der Vertrauensschätzung basiert. Aufbauend auf diesem Rahmen analysieren wir zwei dominierende Paradigmen: Self-Consistency und Perplexität, und decken entscheidende Limitationen auf: Self-Consistency leidet unter hohem Schätzfehler, während Perplexität erhebliche Modellierungsfehler aufweist und eine mögliche Degradierung der Konvergenz des Schätzfehlers aufweist. Um diese Limitationen zu überwinden, führen wir RPC ein, eine hybride Methode, die unsere theoretischen Erkenntnisse durch zwei zentrale Komponenten nutzt: Perplexitätskonsistenz und Schlussfolgerungspruning. Perplexitätskonsistenz vereint die Stärken von Self-Consistency und Perplexität und beschleunigt die Konvergenz des Schätzfehlers von linear auf exponentiell, ohne den Modellfehler zu erhöhen. Schlussfolgerungspruning verhindert eine Degradierung, indem es geringwahrscheinliche Schlussfolgerungspfade eliminiert. Sowohl die theoretische Analyse als auch empirische Ergebnisse an sieben Benchmark-Datensätzen zeigen, dass RPC ein großes Potenzial zur Reduktion der Schlussfolgerungsfehler besitzt. Insbesondere erreicht RPC eine Schlussfolgerungsleistung, die der von Self-Consistency entspricht, wobei zugleich die Vertrauenswürdigkeit der Schätzungen verbessert und die Sampling-Kosten um 50 % reduziert werden. Der Quellcode und zusätzliche Ressourcen sind unter https://wnjxyk.github.io/RPC verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Theoretische Studie zur Verbindung der internen Wahrscheinlichkeit und der Selbstkonsistenz für die Schlussfolgerung von LLM

Zhi Zhou Yuhao Tan Zenan Li Yuan Yao Lan-Zhe Guo Yu-Feng Li Xiaoxing Ma

Abstract

KI mit KI entwickeln

Hyper Newsletters