HyperAIHyperAI

Command Palette

Search for a command to run...

vor 21 Tagen

Verallgemeinerung der testzeitoptimalen Skalierung der Rechenleistung als optimierbarer Graph

Fali Wang Jihai Chen Shuhua Yang Runxue Bao Tianxiang Zhao Zhiwei Zhang Xianfeng Tang Hui Liu Qi He Suhang Wang

Verallgemeinerung der testzeitoptimalen Skalierung der Rechenleistung als optimierbarer Graph

Abstract

Test-Time Scaling (TTS) verbessert große Sprachmodelle (LLMs), indem während der Inferenz zusätzliche Rechenressourcen zugewiesen werden, typischerweise durch parallele, sequenzielle oder hybride Skalierung. Bisherige Studien gehen jedoch häufig von festen Zusammenarbeitsarchitekturen (z. B. Topologien) und der Nutzung einzelner Modelle aus und vernachlässigen, dass optimale Architekturen und Modellkombinationen je nach Aufgabe variieren können. Daher untersuchen wir das neuartige Problem der Suche nach rechenoptimalen Modellkombinationen und Architekturen im Rahmen von TTS unter einer festen Budgetbeschränkung. Wir formalisieren dieses Problem als mehrfaches LLM-Zusammenarbeits-Graphen, wobei Knoten Rollen und LLM-Zuweisungen kodieren und Kanten den Informationsfluss abbilden. Die Herausforderung liegt darin, dass (i) der kombinatorische Suchraum extrem groß ist und (ii) aufgabenbezogene Anforderungen maßgeschneiderte Designs erfordern. Um diese Probleme zu bewältigen, reformulieren wir das Problem als probabilistische Graphenoptimierung und gewinnen anhand von Pilotexperimenten drei empirische Erkenntnisse über TTS-Zusammenarbeitsgraphen. Auf Basis dieser Erkenntnisse stellen wir Agent-REINFORCE vor, einen von LLM-Agenten unterstützten Rahmen, der die REINFORCE-Strategie nachahmt, indem er die Schritte Sampling-Gradient-Update durch Sampling-Feedback-Update ersetzt, wobei das Feedback als textuelle Gradienteninformation dient, um den probabilistischen Graphen zu aktualisieren und effizient optimale mehrfache LLM-Zusammenarbeitsgraphen zu finden. Experimente zeigen, dass Agent-REINFORCE sowohl traditionelle als auch auf LLM basierende Baselines in Bezug auf Stichprobeneffizienz und Suchleistung übertrifft und effektiv optimale Graphen unter gemeinsamen Zielen von Genauigkeit und Inferenzlatenz identifiziert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verallgemeinerung der testzeitoptimalen Skalierung der Rechenleistung als optimierbarer Graph | Forschungsarbeiten | HyperAI