HyperAI

Test-Time Scaling (TTS) verbessert große Sprachmodelle (LLMs), indem während der Inferenz zusätzliche Rechenressourcen zugewiesen werden, typischerweise durch parallele, sequenzielle oder hybride Skalierung. Bisherige Studien gehen jedoch häufig von festen Zusammenarbeitsarchitekturen (z. B. Topologien) und der Nutzung einzelner Modelle aus und vernachlässigen, dass optimale Architekturen und Modellkombinationen je nach Aufgabe variieren können. Daher untersuchen wir das neuartige Problem der Suche nach rechenoptimalen Modellkombinationen und Architekturen im Rahmen von TTS unter einer festen Budgetbeschränkung. Wir formalisieren dieses Problem als mehrfaches LLM-Zusammenarbeits-Graphen, wobei Knoten Rollen und LLM-Zuweisungen kodieren und Kanten den Informationsfluss abbilden. Die Herausforderung liegt darin, dass (i) der kombinatorische Suchraum extrem groß ist und (ii) aufgabenbezogene Anforderungen maßgeschneiderte Designs erfordern. Um diese Probleme zu bewältigen, reformulieren wir das Problem als probabilistische Graphenoptimierung und gewinnen anhand von Pilotexperimenten drei empirische Erkenntnisse über TTS-Zusammenarbeitsgraphen. Auf Basis dieser Erkenntnisse stellen wir Agent-REINFORCE vor, einen von LLM-Agenten unterstützten Rahmen, der die REINFORCE-Strategie nachahmt, indem er die Schritte Sampling-Gradient-Update durch Sampling-Feedback-Update ersetzt, wobei das Feedback als textuelle Gradienteninformation dient, um den probabilistischen Graphen zu aktualisieren und effizient optimale mehrfache LLM-Zusammenarbeitsgraphen zu finden. Experimente zeigen, dass Agent-REINFORCE sowohl traditionelle als auch auf LLM basierende Baselines in Bezug auf Stichprobeneffizienz und Suchleistung übertrifft und effektiv optimale Graphen unter gemeinsamen Zielen von Genauigkeit und Inferenzlatenz identifiziert.

Verallgemeinerung der testzeitoptimalen Skalierung der Rechenleistung als optimierbarer Graph

Fali Wang Jihai Chen Shuhua Yang Runxue Bao Tianxiang Zhao Zhiwei Zhang Xianfeng Tang Hui Liu Qi He Suhang Wang

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Verallgemeinerung der testzeitoptimalen Skalierung der Rechenleistung als optimierbarer Graph

Fali Wang Jihai Chen Shuhua Yang Runxue Bao Tianxiang Zhao Zhiwei Zhang Xianfeng Tang Hui Liu Qi He Suhang Wang

Abstract

KI mit KI entwickeln

Hyper Newsletters