AI-Engineering erfordert neue Bewertungsansätze im Software-Alltag
AI-Engineering und Evaluierung als neue Schichten der Softwareentwicklung Die Rolle des Software-Engineers im AI-Zeitalter hat sich zwar nicht grundlegend verändert, doch die Arbeit hat sich zu einer hybriden Disziplin entwickelt, die klassische Softwareentwicklung, KI-Engineering, Produktintuition und Nutzerempathie vereint. Während viele glauben, dass KI-Engineering hauptsächlich aus Modelltraining besteht, zeigt die Realität: Außerhalb von Forschungslaboren wie OpenAI oder Anthropic wird selten von Grund auf trainiert. Stattdessen geht es darum, bestehende Modelle – über APIs, RAG-Pipelines, Tool-Calling – sinnvoll in Produkte zu integrieren, wobei klassische SWE-Aspekte wie Deployment, Monitoring und Skalierung weiterhin zentral sind. KI-Engineering ist somit keine Ersatzdisziplin, sondern eine Erweiterung der Softwareentwicklung um neue Komplexität. Ein zentrales Element dieser neuen Arbeitsebene sind Evaluierungen (Evals). In der klassischen Softwareentwicklung sind Tests essenziell, um Regressionen zu verhindern. Ähnlich verhält es sich bei KI-Systemen: Jede Änderung – sei es ein Prompt-Update, eine RAG-Änderung oder eine Feinabstimmung – kann die Leistung in einem Bereich verbessern, während sie in einem anderen verschlechtert. Ohne strukturierte Evaluierung bleibt dies oft unerkannt. Doch Evaluierung in der KI ist herausfordernd: Modelle sind oft zu intelligent, um einfach als „richtig“ oder „falsch“ zu bewerten. Offene Aufgaben haben keine eindeutige Lösung, und die Black-Box-Natur der Modelle macht es schwierig, deren Stärken und Schwächen zu verstehen. Um dies zu bewältigen, lassen sich Evaluierungen in zwei Kategorien unterteilen: quantitative und qualitative. Quantitative Evals prüfen klare, messbare Ergebnisse – etwa ob eine mathematische Aufgabe korrekt gelöst wurde. Diese können automatisiert werden und sind skalierbar. Qualitative Evals hingegen beurteilen subjektive Aspekte wie Ton, Kohärenz oder Nutzerfreundlichkeit. Die meisten realen Evaluierungen sind eine Mischung aus beiden. Ein vielversprechender Ansatz ist die Nutzung von KI als „Urteilssprecher“: Ein zweites Modell bewertet die Ausgabe des ersten basierend auf definierten Kriterien wie Klarheit, Hilfsbereitschaft oder Faktenkonformität. Diese Methode lässt sich automatisieren und in CI/CD-Workflows integrieren, um kontinuierliche Evaluierung und frühzeitige Fehlererkennung zu ermöglichen. Obwohl KI-Judges nicht perfekt sind, bieten sie mit mehreren Modellen und großen Datensätzen eine skalierbare Näherung menschlicher Beurteilung. Die Idee des eval-getriebenen Entwicklungsansatzes – inspiriert von Test-Driven Development – ist entscheidend: Zunächst definiert man, was „Erfolg“ bedeutet, bevor man baut. Dies stellt sicher, dass die Entwicklung nicht nur technisch funktioniert, sondern auch geschäftlichen und nutzergerechten Wert schafft. Dabei zählen nicht nur Korrektheit, sondern auch Praktikabilität (z. B. Laufzeit, Ressourcenverbrauch), Generierungskapazität (Fluency, Relevanz) und Sicherheit – inklusive Schutz vor Prompt-Injektionen oder Datenlecks. Zusammenfassend ist klar: Mit wachsenden KI-Fähigkeiten wird die Bedeutung robuster Evaluierung immens. Sie sind die neuen Garanten für Zuverlässigkeit in einer Welt, in der Systeme probabilistisch und stochastisch sind. Ohne sie drohen kostspielige Regressionen, User-Frustration und technische Schulden. Die Grenzen zwischen Rollen verschwimmen – besonders in kleinen Teams – und erfordern ein neues Verständnis von Softwarequalität: nicht mehr nur für deterministische, sondern auch für intelligente, sich verändernde Systeme.
