Google-Entwickler revoltieren gegen Reduzierung der Geminal-Pro-Transparenz
Googles Entcheidung, die Roh-Denksequenzen seines Flaggschiff-Modells Gemini 2.5 Pro zu verbergen, hat bei Entwicklern, die auf diese Transparenz angewiesen waren, um Anwendungen aufzubauen und zu debuggen, eine heftige Empörung ausgelöst. Ähnlich wie OpenAI, ersetzt Google nun die schrittweise Begründung durch eine vereinfachte Zusammenfassung. Diese Änderung hebt das Spannungsfeld hervor, das zwischen der Erstellung einer glatten Benutzererfahrung und der Bereitstellung beobachtbarer, vertrauenswürdiger Tools für Unternehmen besteht. Die sogenannten „Denksequenzen“ oder „Ketten des Denkens“ (Chain of Thought, CoT) sind eine Serie von Zwischenschritten, die ein fortschrittliches KI-Modell durchläuft, bevor es zur endgültigen Antwort kommt. Dies beinhaltet beispielsweise den Planungsprozess, einen Entwurf von Code, oder Selbstkorrekturen. Für Entwickler ist diese Denksequenz ein wesentliches Diagnose- und Debugging-Werkzeug. Wenn ein Modell falsche oder unerwartete Ausgaben liefert, zeigt der Gedankengang, wo die Logik fehlgeschlagen ist. Dies war eines der Hauptvorteile von Gemini 2.5 Pro gegenüber Modellen von OpenAI. In Googles AI-Entwicklerforum beschrieben Benutzer den Verlust dieser Funktion als einen „massiven Rückschritt“. Ohne sie sind Entwickler im Dunkeln gelassen. Ein Nutzer sagte: „Ich kann keine Probleme genau diagnostizieren, wenn ich den Rohgedankengang nicht sehen kann, wie wir es früher getan haben.“ Ein anderer erklärte, dass er gezwungen sei, „zu raten“, weshalb das Modell versagt, was zu „äußerst frustrierenden, wiederholten Schleifen beim Beheben von Fehlern“ führe. Diese Transparenz ist auch entscheidend für die Entwicklung fortschrittlicher KI-Systeme. Entwickler nutzen die CoT, um Prompts und Systemanweisungen zu optimieren und das Verhalten des Modells zu steuern. Diese Funktion ist besonders wichtig bei der Erstellung von agilen Workflows, bei denen die KI mehrere Aufgaben hintereinander ausführt. Ein Entwickler bemerkte: „Die CoTs halfen enorm dabei, agente Workflows korrekt einzustellen.“ Für Unternehmen kann dieser Trend zur Opazität problematisch sein. Schwarze-Box-KI-Modelle, die ihre Begründungen verbergen, führen zu erheblichen Risiken, insbesondere in hochsensiblen Szenarien. Dies bietet offene Quellcode-Alternativen wie DeepSeek-R1 und QwQ-32B eine klare Chance. Modelle, die volle Zugriffsmöglichkeiten auf ihre Denksequenzen bieten, geben Unternehmen mehr Kontrolle und Transparenz über das Verhalten des Modells. Die Entscheidung für einen CTO oder einen AI-Leiter geht nun über die bloße Auswahl des besten Leistungsvergleichs hinaus. Es ist eine strategische Wahl zwischen einem top-performanten aber opaken Modell und einem transparenteren, das mit größerem Vertrauen integriert werden kann. Google reagierte auf die Empörung der Entwickler und erklärte seine Motivation. Logan Kilpatrick, Senior Product Manager bei Google DeepMind, erklärte, dass die Änderung „rein kosmetischer Natur“ sei und das interne Leistungsniveau des Modells nicht beeinträchtige. Er betonte, dass das verbraucherorientierte Gemini-App durch das Verbergen des langen Gedankengangs eine sauberere Benutzererfahrung biete. „Der Prozentsatz der Menschen, die die Gedanken in der Gemini-App lesen, ist sehr gering“, sagte er. Die neuen Zusammenfassungen sollten ein erster Schritt sein, um Entwicklern programmatischen Zugriff auf Begründungsspuren über die API zu ermöglichen, was bisher nicht möglich war. Das Google-Team erkannte die Bedeutung der Rohgedanken für Entwickler an: „Ich höre, dass Sie alle Rohgedanken wollen, der Wert ist klar, es gibt Anwendungsfälle, die sie erfordern.“ Kilpatrick fügte hinzu, dass das Wiedereinbinden der Funktion in die entwicklungsfokussierte AI Studio „etwas ist, das wir erforschen können“. Googles Reaktion darauf deutet darauf hin, dass eine Art Kompromiss möglich sein könnte, zum Beispiel durch eine „Entwicklermodus“, der den Zugriff auf Rohgedanken ermöglicht. Die Notwendigkeit der Beobachtbarkeit wird sich weiter verstärken, je autonomer KI-Modelle werden und je komplexere Pläne sie ausführen. Einige Experten bezweifeln jedoch, ob die Roh-Denksequenzen tatsächlich hilfreich sind. Subbarao Kambhampati, Professor für Künstliche Intelligenz an der Arizona State University, stellt in einem kürzlich veröffentlichten Papier in Frage, ob die „Zwischen Tokens“ eines Reasoning-Modells vor der endgültigen Antwort als zuverlässiger Leitfaden für das Verständnis verwendet werden können, wie das Modell Probleme löst. Modelle gehen oft in endlose und unverständliche Richtungen während ihres Denkprozesses. Experimente zeigen, dass Modelle, die auf falschen Begründungsspuren und richtigen Ergebnissen trainiert wurden, ebenso gut Probleme lösen können wie Modelle, die auf gut currierten Spuren trainiert wurden. Zudem werden neueste Reasoning-Modelle durch Reinforcement-Learning-Algorithmen trainiert, die nur das endgültige Ergebnis verifizieren und nicht die Begründungsspur des Modells bewerten. „Die Tatsache, dass die Zwischensequenzen der Tokens oft besser formatiert und geschrieben erscheinen wie menschliche Notizen, sagt uns wenig darüber, ob sie für ähnliche Zwecke verwendet werden, wie Menschen es tun, geschweige denn, ob sie als verständliches Fenster in das Denken eines LLMs dienen können oder als zuverlässige Begründung des endgültigen Ergebnisses“, schreiben die Forscher. „Die meisten Nutzer können aus den großen Mengen an Rohintermediäten, die diese Modelle produzieren, nichts Brauchbares herauslesen“, sagte Kambhampati. „Wie wir erwähnen, produziert DeepSeek R1 bei der Lösung eines einfachen Planungsproblems 30 Seiten Pseudo-Englisch! Eine zynische Erklärung dafür, warum o1/o3 die Roh Tokens ursprünglich nicht zeigten, könnte darin liegen, dass sie erkannten, wie inkohärent sie sind.“ Zusammenfassungen oder nachträgliche Erklärungen könnten für Endnutzer verständlicher sein. „Das Problem ist, inwieweit sie tatsächlich die internen Vorgänge widerspiegeln, die LLMs durchlaufen“, sagte Kambhampati. „Als Lehrer könnte ich ein neues Problem mit vielen Fehlstarts und Rückgängen lösen, aber die Lösung so erklären, dass sie die Studenten am besten verstehen.“ Der Entschluss, die CoT zu verbergen, dient auch als wettbewerbsorientierte Barriere. Rohgedankensequenzen sind äußerst wertvolle Trainingsdaten. Wie Kambhampati betont, kann ein Konkurrent diese Spuren verwenden, um „Distillation“ durchzuführen – den Prozess, ein kleineres, kostengünstigeres Modell zu trainieren, das die Fähigkeiten eines mächtigeren Modells nachahmt. Das Verbergen der Rohgedanken macht es viel schwieriger für Rivalen, die „Geheimrezept“ eines Modells zu kopieren, was in einer ressourcenintensiven Branche ein wichtiger Vorteil ist. Der Streit um die Ketten des Denkens ist ein Vorbote für ein viel größeres Gespräch über die Zukunft der KI. Es gibt noch viel zu lernen über die internen Arbeitsweisen von Begründungsmodellen, wie man sie nutzen kann und wie weit Modellanbieter bereit sind, Entwicklern Zugang zu ihnen zu gewähren. Industrie-Experten sehen in Googles Entscheidung sowohl Chancen als auch Risiken. Während die Verbergen der Rohgedankensequenzen die Benutzererfahrung verbessern kann, erhöht es das Vertrauensrisiko für Unternehmen. Offene Quellcode-Modelle bieten hier eine Alternative, die mehr Kontrolle und Transparenz ermöglicht. Googles Reaktion auf die Entwicklerempörung zeigt, dass das Unternehmen offen für Verbesserungen ist und möglicherweise einen Kompromiss findet, um den Bedürfnissen der Entwickler gerecht zu werden.