HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptives LLM-Routing unter Budgetbeschränkungen

Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung maßgeblich vorangetrieben, bringen jedoch erhebliche Herausforderungen in der praktischen Anwendung mit sich, insbesondere aufgrund ihrer unterschiedlichen Leistungsfähigkeit und Kostenstruktur. Um diese Heterogenität effizient zu bewältigen, wird LLM-Routing eingesetzt, das dynamisch das passendste Modell für jede Anfrage auswählt. Traditionelle Ansätze behandeln diese Aufgabe als überwachtes Lernproblem und setzen voraus, dass alle optimalen Zuordnungen zwischen Anfragen und LLMs bereits bekannt sind. In der Realität fehlen jedoch solche vollständigen Wissensbasen, und Nutzeranfragen entwickeln sich kontinuierlich. Um diesen Limitationen zu begegnen, wird in der vorliegenden Arbeit LLM-Routing als Kontextbanditenproblem (contextual bandit) formuliert, was adaptives Entscheidungsfinden ermöglicht, ohne dass jedes Modell für jede Anfrage explizit inferiert werden muss – im Gegensatz zu herkömmlichen überwachten Ansätzen. Dazu wird ein gemeinsamer Embedding-Raum für Anfragen und LLMs konstruiert, in dem die Ähnlichkeit zwischen Anfrage und Modell durch semantische Nähe in der Embedding-Darstellung erfasst wird. Dieser Raum wird zunächst aus offline gesammelten menschlichen Präferenzen gelernt und anschließend durch Online-Feedback aus dem Banditen-Verfahren verfeinert. Als konkrete Implementierung wird PILOT (Preference-prior Informed LinUCB for adaptive routing) vorgestellt, eine neuartige Erweiterung des klassischen LinUCB-Algorithmus, die Präferenzinformationen in die Entscheidungsfindung integriert. Um unterschiedliche Nutzerbudgets für die Modellnutzung zu berücksichtigen, wird zudem ein Online-Kostenpolitik-Modell eingeführt, das als Multi-Choice-Knapsack-Problem formuliert ist und eine ressourcenschonende Auswahl von LLMs sicherstellt. Die Evaluierung zeigt, dass PILOT sowohl die Qualität der Modellauswahl verbessert als auch die Kosten effizienter steuert, insbesondere in dynamischen Umgebungen mit unvorhersehbaren Anfragen. Die Arbeit wurde auf der EMNLP 2025 (Findings) akzeptiert und liegt als arXiv-Preprint (2508.21141) vor. Sie ist im Bereich des maschinellen Lernens (cs.LG) angesiedelt und trägt zur Entwicklung intelligenter, kosteneffizienter und anpassungsfähiger LLM-Architekturen bei. Experten schätzen den Ansatz als bedeutenden Fortschritt im Bereich kontextbasierten Modell-Routings, insbesondere wegen der Kombination aus Präferenzvorwissen und Online-Adaption. PILOT zeigt Potenzial für Anwendungen in Cloud-basierten Sprachdiensten, personalisierten Assistenten und skalierbaren AI-Plattformen, wo Ressourcen begrenzt sind und die Modellwahl dynamisch sein muss. Die Integration von Budgetbeschränkungen via Knapsack-Modellierung ist besonders relevant für Unternehmen, die eine optimale Balance zwischen Qualität und Kosten suchen. Die Arbeit unterstreicht zudem die Bedeutung von Hybridansätzen, die sowohl statisches Wissen als auch dynamisches Feedback nutzen – ein Trend, der in der nächsten Generation von LLM-Systemen zunehmend dominieren dürfte.

Verwandte Links

Adaptives LLM-Routing unter Budgetbeschränkungen | Aktuelle Beiträge | HyperAI