HyperAIHyperAI

Command Palette

Search for a command to run...

KI-Evaluierungen werden zum neuen Engpass

Die Kosten für die Evaluierung künstlicher Intelligenz erreichen ein kritisches Niveau, das sich fundamental auf die Fähigkeiten von Forschern und Institutionen auswirkt. Was früher eine kostengünstige Aufgabe war, ist nun zu einem der größten Engpässe im Bereich des Rechenvermögens geworden. Neue Benchmarks für autonome Agenten und wissenschaftliche Modelle verursachen Kosten, die oft die Trainingskosten der Modelle selbst übersteigen. Ein prominentes Beispiel ist das Holistic Agent Leaderboard (HAL). Um 21.730 Agenten-Durchläufe über neun Modelle und neun Benchmarks zu evaluieren, entstanden Kosten von etwa 40.000 US-Dollar. Ein einzelner Testlauf auf dem GAIA-Benchmark kann, ohne Caching-Maßnahmen, bereits fast 2.900 US-Dollar kosten. Die Preisspanne ist enorm: Selbst bei identischen Aufgaben können unterschiedliche Architekturen oder Scaffolds Kostenunterschiede von bis zu 33-fachen verursachen. Dies liegt daran, dass Agenten-Benchmarks nicht nur das Modell, sondern auch dessen Interaktion mit der Umgebung und Token-Budgets testen, wobei kleine Entscheidungen die Kosten um das Zehnfache treiben können. Ähnliche Trends zeigen sich im wissenschaftlichen Bereich. Der Benchmark The Well erfordert für die Evaluierung einer einzigen neuen Architektur etwa 960 Stunden Rechenzeit auf einer H100-GPU. Ein vollständiger Vergleich mehrerer Baselines kann diese Zahl vervierfachen und Kosten von rund 9.600 US-Dollar verursachen. In diesem Bereich übersteigen die Evaluierungskosten die Trainingskosten für die jeweiligen Kandidatenmodelle um das Hundertfache. Auch Benchmarks wie PaperBench, die das Reproduzieren von Forschungsarbeiten verlangen, liegen pro Auswertung bei rund 9.500 US-Dollar. Die Schwierigkeit bei der Kostensenkung liegt in der Natur dieser neuen Tests. Während statische LLM-Benchmarks durch Kompresstechniken wie Flash-HELM oder Subsampling um das Hundert- bis Zweihundertfache günstiger gemacht werden konnten, sind Agenten-Benchmarks deutlich widerstandsfähiger gegen solche Optimierungen. Hier liegen die besten Einsparungen oft nur im Bereich des Zwei- bis Dreifachen. Noch problematischer sind Benchmarks, die das Training im Loop beinhalten, da sie kaum komprimierbar sind und oft wiederholte Durchläufe für statistische Zuverlässigkeit erfordern. Eine zuverlässige Bewertung mit mehreren Durchläufen kann die ursprünglichen Kosten von 40.000 Dollar auf 320.000 Dollar treiben. Diese Kostenverhältnisse führen zu einer signifikanten Spaltung im Forschungsfeld. Akademische Einrichtungen, Sicherheitsinstitute und Journalisten können sich seriöse Evaluierungen von Frontier-Modellen oft nicht mehr leisten. Ein einzelner Testlauf für einen GAIA-Durchlauf kann das jährliche Reisesbudget eines Promovierten übersteigen. Wenn nur Labore mit riesigen Budgets statistisch belastbare Zahlen liefern können, wird die externe Validierung der KI-Systeme konzentriert und möglicherweise verzerrt. Zusätzlich werden aktuelle Leaderboards oft kritisiert, da sie Kosten ignorieren. Dies belohnt ineffiziente Ansätze, bei denen mehr Rechenleistung ausgegeben wird, ohne dass sich die Genauigkeit proportional verbessert. Ein echter Fortschritt erfordert eine Verschiebung weg von der reinen Betrachtung von Ergebnissen hin zu einer Analyse des Preis-Leistungs-Verhältnisses. Die Lösung liegt möglicherweise nicht nur in effizienteren Algorithmen, sondern in der gemeinsamen Nutzung von Evaluierungsdaten. Derzeit zahlen verschiedene Gruppen häufig für dieselben Tests, ohne dass die Rohdaten oder Details über die Testkonfiguration geteilt werden. Initiativen wie die EvalEval Coalition setzen auf standardisierte Datenformate, um Ergebnisse wiederverwendbar zu machen. Nur durch eine transparente, geteilte Dokumentation von Evaluierungsergebnissen kann die Branche die finanziellen Barrieren senken und sicherstellen, dass nicht nur die wohlhabendsten Akteure die Fähigkeit zur Bewertung und Überwachung von KI-Systemen haben. Die Evaluation hat sich zu einer eigenen Disziplin mit eigenen Rechenbudgets und Grenzen entwickelt, die den weiteren Fortschritt der künstlichen Intelligenz maßgeblich bestimmen.

Verwandte Links