SLMs als Standard, LLMs als Backup: Intelligente Orchestrierung in agentenbasierten Systemen
Ein kürzlich veröffentlichter Bericht bietet eine umfassende Übersicht über den Einsatz kleiner Sprachmodelle (SLMs) in agentenbasierten Systemen und unterstreicht deren Effizienz bei Werkzeugnutzung, strukturierten Ausgaben und Deployment-Strategien. Dabei positionieren sich SLMs als Standardlösung, während große Sprachmodelle (LLMs) lediglich als Fallback dienen. Zentrales Element in diesen Workflows ist der sogenannte „Front-door Router“ oder Classifier, der eingehende Anfragen anhand von Intention, Kosten, Latenz, Unsicherheit und Aufgabentyp verarbeitet und routet – quasi der zentrale Verkehrsleiter. Agente nutzen SLMs für alltägliche Aufgaben über eine Capability Registry, in der Modelle anhand ihrer Stärken klassifiziert sind: Klassifikation (Intentionserkennung), Extraktion, Werkzeugnutzung, Codieren usw. Komplexere Fälle werden dagegen an LLMs delegiert. Die Zukunft agenter Systeme liegt nicht in noch größeren Modellen, sondern in intelligenter Orchestrierung. Stellen Sie sich vor: Eine Eingabe trifft auf ein 3B–8B-Parameter-SLM, das bereits fast alle Aufgaben übernimmt – Entscheidung über benötigte Werkzeuge, Entitätsextraktion, Generierung streng strukturierter JSON- oder YAML-Ausgaben, Planung mehrschrittiger Abläufe. LLMs werden nur aktiviert, wenn der SLM versagt. Die Escalation ist explizit definiert: Der LLM erhält einen eng begrenzten Prompt mit dem vollständigen Gesprächsverlauf, den Fehlversuchen des SLMs und klaren Anweisungen. Nach der Ausgabe wird das Ergebnis exakt wie zuvor validiert. Gelingt die Prüfung, ist der Prozess abgeschlossen. Fehlschläge führen zu erneuter Iteration oder einem menschlichen Eingriff. Für kritische Aktionen – wie Zahlungen, Verarbeitung sensibler personenbezogener Daten oder Löschung von Produktionsdaten – erfolgt keine automatische Weiterführung. Zwei Betriebsmodi dominieren: Entweder schlägt der SLM vor, und ein zweiter SLM oder LLM überprüft die Entscheidung – oder bei hoher Unsicherheit oder Risikobewertung wird ein Mensch aktiviert, der genehmigt, ablehnt oder korrigiert. Jeder menschliche Eingriff wird als „golden counterfactual trace“ protokolliert und dient als Lernmaterial. So lernt das Modell aus den Fällen, in denen Menschen es retten mussten. Alles wird obsessiv protokolliert: Prompt, Ausgabe, Latenz, Kosten, Validierungsfehler, Escalation-Rate, Unsicherheitsscores. Diese Telemetriedaten werden zur Weiterbildung von Adaptern genutzt. Innerhalb von Wochen verbessern sich die SLMs exakt in den Aufgaben, die das eigene Produkt tatsächlich erfordert – da sie ausschließlich auf Produkt-Daten trainiert werden. Der Fünf-Schritte-Plan zur Migration von GPT-4-alleinigen Agenten zu SLM-Defaults: 1) Alles protokollieren – mindestens zwei Wochen mit dem aktuellen LLM. 2) Aufgaben clustern – 80 % der Anfragen erweisen sich als Extraktion, Routing oder einfache Werkzeugnutzung. 3) Kleine Spezialisten fine-tunen (z. B. mit LoRA auf 10.000–50.000 de-identifizierten Beispielen), quantisieren auf 4- oder 8-Bit. 4) Hinter einem Router einsetzen, mit Unsicherheits-Fallback – Kosten sinken oft um das 20- bis 100-fache. 5) Kontinuierlich iterieren: menschliche Bewertung, Sicherheitsregeln, neue Adapter aus Fehlern. Industrieexperten sehen darin eine Paradigmenverschiebung: „Die Effizienz von Agentic Systems wird nicht durch Modellgröße, sondern durch intelligente Pipeline-Designs bestimmt.“ Unternehmen wie Anthropic, Cohere und DeepSeek setzen bereits auf SLM-Orchestrierung, um Kosten zu senken und Latenz zu minimieren. Die Zukunft gehört nicht mehr nur den größten Modellen, sondern den cleversten Systemarchitekturen.
