vor 2 Monaten

TreePO: Brücke zwischen Policy-Optimierung und Wirksamkeit sowie Inferenzeffizienz durch heuristische baumbasierte Modellierung

Details der Forschungsarbeit anzeigen Code anzeigen

Yizhi Li Qingshui Gu Zhoufutu Wen Ziniu Li Tianshun Xing Shuyue Guo Tianyu Zheng Xin Zhou Xingwei Qu Wangchunshu Zhou

TreePO: Brücke zwischen Policy-Optimierung und Wirksamkeit sowie Inferenzeffizienz durch heuristische baumbasierte Modellierung

Abstract

Neuere Fortschritte bei der Ausrichtung großer Sprachmodelle mittels Verstärkungslernen haben beachtliche Fortschritte bei der Lösung komplexer Schlussfolgerungsprobleme erzielt, jedoch zu hohen Kosten durch on-policy Rollouts und einer eingeschränkten Exploration verschiedener Schlussfolgerungspfade. In dieser Arbeit stellen wir TreePO vor, einen Ansatz, der einen selbstgeleiteten Rollout-Algorithmus verwendet, bei dem die Sequenzgenerierung als baumstrukturierte Suche aufgefasst wird. TreePO besteht aus einer dynamischen Baum-Sampling-Politik und einer Dekodierung in festen Segmentlängen und nutzt lokale Unsicherheit, um zusätzliche Zweige zu generieren. Durch die amortisierte Berechnung über gemeinsame Präfixe und die frühzeitige Pruning von geringwertigen Pfaden reduziert TreePO im Wesentlichen die pro-Update-Berechnungsbelastung, während die Vielfalt der Exploration erhalten oder sogar verbessert wird. Zu den zentralen Beiträgen gehören: (1) ein segmentweiser Sampling-Algorithmus, der die KV-Cache-Belastung durch kontinuierliche Segmente verringert und gleichzeitig neue Zweige mit einer frühzeitigen Stopp-Mechanismus erzeugt; (2) eine baumbasierte, segmentweite Vorteilsschätzung, die sowohl globale als auch lokale proximale Policy-Optimierung berücksichtigt; sowie (3) eine Analyse der Wirksamkeit einer wahrscheinlichkeits- und qualitätsgetriebenen dynamischen Divergenz sowie einer Rückfallstrategie. Wir bestätigen empirisch die Leistungssteigerung von TreePO an einer Reihe von Schlussfolgerungsbenchmarks und zeigen Einsparungen an GPU-Stunden zwischen 22 % und 43 % im Vergleich zur herkömmlichen Sampling-Design für trainierte Modelle. Gleichzeitig erreichen wir bis zu 40 % Einsparung an Trajektorien-Ebene und bis zu 35 % an Token-Ebene bei der Berechnungsbelastung für bestehende Modelle. Während TreePO eine „kostenlose“ Steigerung der Inferenz-Effizienz bietet, zeigt der Ansatz einen praktikablen Weg zur Skalierung von RL-basierten Nachtrainingsverfahren mit weniger Proben und geringerem Rechenaufwand. Die Projekt-Homepage befindet sich unter https://m-a-p.ai/TreePO.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

TreePO: Brücke zwischen Policy-Optimierung und Wirksamkeit sowie Inferenzeffizienz durch heuristische baumbasierte Modellierung

Yizhi Li Qingshui Gu Zhoufutu Wen Ziniu Li Tianshun Xing Shuyue Guo Tianyu Zheng Xin Zhou Xingwei Qu Wangchunshu Zhou7 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Yizhi Li Qingshui Gu Zhoufutu Wen Ziniu Li Tianshun Xing Shuyue Guo Tianyu Zheng Xin Zhou Xingwei Qu Wangchunshu Zhou