vor 13 Tagen

Pruning die Erwartbaren: Effizientes Code-Reasoning über die First-Token-Überraschung

Wenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

Details der Forschungsarbeit anzeigen View Code

Pruning die Erwartbaren: Effizientes Code-Reasoning über die First-Token-Überraschung

Abstract

Kürzlich haben große Schlussfolgerungsmodelle (Large Reasoning Models, LRMs) durch die Verlängerung der Ketten-des-Denkens (Chain-of-Thought, CoT) beachtliche Fähigkeiten im Bereich des Code-Reasonings demonstriert. Allerdings führen übermäßig lange Schlussfolgerungspfade zu erheblichen Herausforderungen hinsichtlich Trainingskosten, Inferenzlatenz und Einsatzmöglichkeiten. Obwohl verschiedene Ansätze zur CoT-Kompression entstanden sind, um dieses Problem zu bewältigen, stehen sie vor inhärenten Kompromissen: Token-basierte Methoden stören oft die syntaktische und logische Kohärenz, während schrittweise Verfahren, die auf Perplexität basieren, nicht zuverlässig die logisch entscheidenden Schlussfolgerungsschritte erfassen können. In diesem Paper stellen wir ASAP (Anchor-gesteuerte, auf Überraschung basierende Pruning) vor – einen neuartigen grob-zu-fein-gerichteten Rahmen zur CoT-Kompression. ASAP führt zunächst eine anchor-gesteuerte Pruning-Phase durch, um die zentrale Schlussfolgerungsstruktur zu bewahren und somit den Suchraum für nachfolgende Verarbeitung effizient zu verkleinern. Anschließend ermöglicht es eine logikbewusste Pruning-Strategie, indem es logisch wesentliche Schlussfolgerungsschritte auf Basis einer neuen Metrik für die erste-Token-Überraschung auswählt. Schließlich lehrt ASAP die Modelle, solche kompakten CoTs autonom während der Inferenz zu generieren und zu nutzen, wodurch eine effiziente Schlussfolgerung bei Codieraufgaben ermöglicht wird. Experimente zeigen, dass ASAP eine state-of-the-art-Genauigkeit auf mehreren Benchmarks für Code-Generierung erreicht, während gleichzeitig die Trainings- und Inferenzkosten erheblich reduziert werden. Auf dem anspruchsvollen LiveCodeBench v4_v5-Benchmark senkt unsere Methode die Token-Generierung um 23,5 % und die Inferenzlatenz um 43,5 % im Vergleich zum stärksten Baseline, wobei eine konkurrenzfähige Genauigkeit von 36,19 % bei Pass@1 erreicht wird. Unsere Ergebnisse weisen auf eine vielversprechende Richtung für die Entwicklung leistungsfähiger und effizienter LRMs hin.