HyperAIHyperAI

Command Palette

Search for a command to run...

Agentenentwicklung bleibt herausfordernd: Werkzeuge, Caching und Fehlerisolierung entscheiden über Erfolg

Die Entwicklung von Agenten bleibt weiterhin eine herausfordernde und unübersichtliche Aufgabe, wie aus jüngsten Erfahrungen hervorgeht. Trotz der Fortschritte in der KI-Infrastruktur und der Verfügbarkeit von SDKs wie dem Vercel AI SDK oder den direkten Anbieter-SDKs (OpenAI, Anthropic) zeigt sich, dass die Abstraktionen oft nicht ausreichen, wenn echte Werkzeugnutzung, kontextuelle Kontrolle und Fehlerisolierung im Spiel sind. Der Autor entschied sich ursprünglich für das Vercel SDK, doch nach mehreren Herausforderungen – insbesondere bei der Integration von Provider-seitigen Tools wie Anthropic’s Web-Suche, die die Nachrichtengeschichte zerstörten – würde er heute anders entscheiden. Direkte Nutzung der Anbieter-SDKs bietet mehr Kontrolle, klarere Fehlermeldungen und bessere Caching-Steuerung, besonders bei Anthropic, wo das Cache-Management explizit erfolgt und damit kostentransparenter ist. Caching ist ein zentraler Faktor: Während andere Plattformen automatisch cache-n, erzwingt Anthropic eine manuelle Steuerung – was ursprünglich als hinderlich erschien, nun aber als Vorteil wahrgenommen wird. Explizites Caching ermöglicht Kontrollmöglichkeiten wie parallele Verzweigungen im Gesprächsverlauf, Kontextbearbeitung und genauere Kostenabschätzungen. Die Implementierung erfolgt mit drei Punkten: nach dem Systemprompt, zu Beginn der Konversation mit dynamischer Aktualisierung und zusätzlicher Optimierung. Dynamische Inhalte wie aktuelle Zeit werden separat eingefügt, um den Cache nicht zu beschädigen. Reinforcement spielt eine entscheidende Rolle im Agenten-Loop: Nach jedem Werkzeugaufruf kann zusätzliche Rückmeldung gegeben werden – etwa zur Zielsetzung, zum Fortschritt oder zur Fehlerkorrektur. Selbst einfache Tools wie der „todo write“-Tool in Claude Code, der nur eine Echo-Funktion hat, wirken als Selbstverstärkung und steigern die Effizienz. Auch bei Fehlern wird der Agent durch gezielte Hinweise auf veränderte Zustände oder fehlerhafte Daten erneut in den richtigen Weg geleitet. Fehler müssen isoliert werden. Eine Möglichkeit ist die Nutzung von Subagenten, die einzelne Aufgaben iterativ lösen und nur erfolgreich abgeschlossene Ergebnisse zurückmelden. Bei Anthropic lässt sich darüber hinaus Kontext bearbeiten, um fehlgeschlagene Versuche aus dem Speicher zu entfernen – allerdings zerstört dies automatisch den Cache, was einen kostspieligen Trade-off darstellt. Ein zentraler Baustein ist die gemeinsame Speicherung über eine virtuelle Dateisystem-Schicht. Dies ermöglicht den Austausch von Daten zwischen Code-Generierung und Inferenz, z. B. von generierten Bildern, die in ZIP-Archive verpackt oder analysiert werden müssen. Ohne solch ein gemeinsames Speichermedium entstehen „Tote Enden“ in der Ablauflogik. Die Verwendung eines speziellen Output-Tools, das z. B. E-Mails versendet, erweist sich als komplexer als erwartet. Die Steuerung von Ton und Stil ist schwieriger als bei direkter Textausgabe, und Versuche, mit einem kleineren Modell (z. B. Gemini 2.5 Flash) die Sprache zu optimieren, erhöhen die Latenz und verringern die Qualität. Zudem droht, dass vertrauliche Zwischenschritte im Endoutput sichtbar werden. Modellwahl bleibt entscheidend: Haiku und Sonnet sind weiterhin die besten Werkzeug-Aufrufer. Für Dokumentenanalyse und Bildverarbeitung bevorzugt man Gemini 2.5, da Sonnet oft durch Sicherheitsfilter blockiert wird. Kosten werden nicht allein durch Token-Zählung bestimmt – eine effizientere Werkzeugnutzung kann die Gesamtkosten senken, selbst wenn das Modell teurer ist. Testen und Evaluierung bleiben das größte Problem: Die agenzentische Natur macht externe Evaluierung kaum möglich. Instrumentierte Tests und Observabilität sind notwendig, doch bisher gibt es keine zufriedenstellende Lösung. Zum Thema Coding Agents: Amp wird getestet – nicht wegen überlegener Leistung, sondern wegen seiner eleganten Architektur, insbesondere der Interaktion zwischen Subagenten wie dem Oracle. Auch Claude Code wirkt wie ein Produkt, das von Nutzern selbst entwickelt wurde – ein seltenes Merkmal in der Branche. Zusätzlich wurden minimalistische Ansätze wie CLI-basierte Browser-Agenten (statt komplexer MCP-Server) sowie die zunehmende Bedeutung von Tmux für interaktive Systeme diskutiert. Die Erkenntnis, dass LLM-APIs letztlich ein Synchronisationsproblem darstellen, wurde separat behandelt. Insgesamt bleibt die Agentenentwicklung ein Feld der Experimente, wo klare Standards fehlen. Die besten Ergebnisse erzielt man heute durch tiefes Verständnis der zugrundeliegenden Plattformen, explizite Steuerung und eine bewusste Architektur – nicht durch abstrahierte SDKs.

Verwandte Links