Neues Modell Arch-Router dirigiert Anfragen effizient zu passenden LLMs
Forscher der Katanemo Labs haben Arch-Router vorgestellt, ein neues Routingmodell und Framework, das darauf abzielt, Benutzeranfragen intelligent an das passende Large Language Model (LLM) zu leiten. Das Modell wurde am 7. Juli 2025 um 16:25 Uhr vorgestellt und soll Unternehmen dabei helfen, Anfragen ohne aufwendige Neuausbildung effizient an die richtigen Modelle weiterzuleiten. Die Herausforderungen des LLM-Routings Mit der steigenden Zahl von LLMs wandeln sich die Systemarchitekturen von Einzelmodellen hin zu Multi-Modell-Systemen, die die spezifischen Stärken jedes Modells für bestimmte Aufgaben nutzen. Beispiele dafür sind Codegenerierung, Textzusammenfassung oder Bildbearbeitung. Das Routing dieser Modelle wird zu einer zentralen Technik, die Anfragen wie ein Verkehrsleitstand an das optimale Modell weiterleitet. Bestehende Routingmethoden lassen sich in zwei Kategorien unterteilen: "task-based routing" (aufgabenbasiertes Routing), bei dem Anfragen anhand vordefinierter Aufgaben verteilt werden, und "performance-based routing" (leistungsorientiertes Routing), das ein Optimum zwischen Kosten und Leistung anstrebt. Task-based Routing hat Schwierigkeiten, unklare oder sich verschichtende Benutzerabsichten, insbesondere in mehrstufigen Konversationen, zu erfassen. Performance-based Routing hingegen konzentriert sich überwiegend auf Benchmark-Ergebnisse und passt sich schlecht an neue Modelle an, es sei denn, es wird teuer und zeitaufwendig nachtrainiert. Die Forscher von Katanemo Labs pointieren in ihrem Papier, dass existierende Routingansätze in der Praxis begrenzt sind. Sie optimieren meistens für Benchmark-Leistungen, vernachlässigen aber menschliche Präferenzen, die durch subjektive Bewertungskriterien getrieben werden. Es besteht daher ein Bedarf an Routing-Systemen, die "mit subjektiven menschlichen Präferenzen übereinstimmen, mehr Transparenz bieten und leicht adaptionfähig sind, wenn Modelle und Anwendungsfälle sich verändern." Ein neues Framework für präferenzübereinstimmendes Routing Um diese Einschränkungen zu überwinden, schlagen die Forscher ein "präferenzübereinstimmendes Routing"-Framework vor, das Anfragen anhand benutzerdefinierter Präferenzen an Routing-Policies zuordnet. In diesem Framework definieren Benutzer ihre Routing-Policies in natürlicher Sprache mithilfe einer "Domain-Action-Taxonomie". Diese besteht aus einer zweistufigen Hierarchie, die zeigt, wie Menschen Aufgaben naturalistisch beschreiben: sie beginnen mit einem allgemeinen Thema (der Domain, wie zum Beispiel "Recht" oder "Finanzen") und gehen dann auf eine spezifische Aufgabe (die Action, wie "Zusammenfassung" oder "Codegenerierung") ein. Jede dieser Policies ist dann an ein bevorzugtes Modell gekoppelt, was Entwicklern ermöglicht, Routing-Entscheidungen anhand praktischer Anforderungen und nicht nur Benchmark-Ergebnisse zu treffen. Wie das Papier erklärt, "dient diese Taxonomie als mentales Modell, um den Benutzern zu helfen, klare und strukturierte Routing-Policies zu definieren." Der Routing-Prozess erfolgt in zwei Schritten. Zunächst wählt ein präferenzübereinstimmender Router-Modell die Anfragen und alle Policies aus und selektiert die passendste Policy. Im zweiten Schritt ordnet eine Zuordnungsfunktion die gewählte Policy ihrem zugehörigen LLM zu. Da die Modellauswahl unabhängig von den Policies erfolgt, können Modelle einfach hinzugefügt, entfernt oder ausgetauscht werden, indem man die Routing-Policies bearbeitet. Dieses Entkoppeln bietet die Flexibilität, die für praktische Deployments erforderlich ist, wo Modelle und Anwendungsfälle ständig evolve. Arch-Router im Einsatz Arch-Router basiert auf einer feinabgestimmten Version des 1,5-Milliarden-Parameter-Modells Qwen 2.5, das mit einem curationierten Datensatz von 43.000 Beispielen trainiert wurde. Die Forscher testeten die Leistung von Arch-Router anhand vier öffentlicher Datensätze, die zur Bewertung von conversational AI-Systemen entwickelt wurden. Die Ergebnisse zeigen, dass Arch-Router den höchsten Gesamtroutingscore von 93,17 % erreicht, was anderen Modellen, einschließlich führender proprietärer Modelle von OpenAI, Anthropic und Google, durchschnittlich um 7,71 % überlegen ist. Das Modell zeigte besonders starke Fähigkeiten bei der Kontextverfolgung über mehrere Konversationsrunden. Laut Paracha, Mitautor des Papers und Gründer/CEO von Katanemo Labs, wird dieses Ansatz bereits in verschiedenen Szenarien angewendet. In offenen Quellcode-Tools leiten Entwickler verschiedene Workflow-Stufen, wie "Code-Design", "Code-Verständnis" und "Code-Generierung", an die besten Modelle weiter. Ebenso können Unternehmen Anfragen zur Dokumentenerstellung an ein Modell wie Claude 3.7 Sonnet weiterleiten, während sie Bildbearbeitungsaufgaben an Gemini 2.5 Pro übergeben. Das System ist auch ideal für persönliche Assistenten in verschiedenen Bereichen, wo Benutzer eine Vielzahl von Aufgaben, von Textzusammenfassungen bis hin zu Faktenabfragen, durchführen. "In solchen Fällen kann Arch-Router Entwicklern helfen, das Gesamtbenuzererlebnis zu vereinheitlichen und zu verbessern," fügte Paracha hinzu. Dieses Framework ist in den Arch-Proxy-Server integriert, einen AI-nativen Proxy-Server von Katanemo Labs, der es Entwicklern ermöglicht, fortschrittliche Traffic-Shaping-Regeln zu implementieren. Wenn ein neues LLM integriert wird, können Teams zum Beispiel einen kleinen Teil des Traffics für eine spezifische Routing-Policy an das neue Modell senden, seine Leistung intern bewerten und dann den Traffic mit Vertrauen vollständig umstellen. Das Unternehmen arbeitet daran, seine Tools mit Evaluierungsplattformen zu integrieren, um diesen Prozess für Unternehmensentwickler weiter zu vereinfachen. Das ultimative Ziel ist es, über fragmentierte AI-Implementierungen hinauszugehen. "Arch-Router – und Arch im Allgemeinen – helfen Entwicklern und Unternehmen, von fragmentierten LLM-Implementierungen zu einem einheitlichen, policygetriebenen System zu gelangen," erklärt Paracha. "In Szenarien, in denen die Benachteraufgaben vielfältig sind, hilft unser Framework, diese Fragmentierung in ein nahtloses Erlebnis zu verwandeln, sodass das Endprodukt für den Endbenutzer flüssiger erscheint." Brancheinsider bewerten die Entdeckung von Arch-Router sehr positiv. Sie sehen es als wichtigen Schritt zur Verbesserung der Effizienz und Benutzerfreundlichkeit in der Anwendung von LLMs in der Unternehmenssoftware. Katanemo Labs, gegründet im Jahr 2022, hat sich rasch zu einem führenden Namen in der Entwicklung von AI-basierten Routing-Technologien etabliert. Das Unternehmen ist bekannt für innovative Lösungen, die die Integration von LLMs in praktische Anwendungsfälle vereinfachen und optimieren.