HyperAI
Back to Headlines

Anthropics Interpretierbare KI revolutioniert Unternehmensstrategien

vor 16 Tagen

Das Interpretabilitätsspielbuch für KI: Was Anthropics Forschung für Ihre Unternehmensstrategie bedeutet Am 17. Juni 2025 um 16:01 Uhr Dario Amodei, CEO von Anthropic, machte im April einen dringenden Appell, die Funktionsweise von KI-Modellen besser zu verstehen. Dies tritt in einem entscheidenden Moment auf, während Anthropic in der globalen KI-Rangliste konkurriert und sich durch seine einzigartige Herangehensweise auszeichnet. Seit der Gründung des Unternehmens im Jahr 2021, als sieben Mitarbeiter von OpenAI wegen Bedenken zu KI-Sicherheit abgespalten wurden, hat Anthropic KI-Modelle entwickelt, die menschlichen Werten folgen, ein System, das sie Konstitutionelle KI nennen. Diese Prinzipien stellen sicher, dass die Modelle "hilfreich, ehrlich und schadlos" sind und im Allgemeinen im besten Interesse der Gesellschaft handeln. Gleichzeitig forscht Anthropics Entwicklungsteam intensiv, um zu verstehen, wie ihre Modelle die Welt betrachten und warum sie hilfreiche (und manchmal schädliche) Antworten liefern. Anthropics Hauptmodell, Claude 3.7 Sonett, dominierte beim Start im Februar die Programmierbenchmarks, was zeigt, dass KI-Modelle sowohl in Leistung als auch in Sicherheit excellieren können. Der kürzliche Release von Claude 4.0 Opus und Sonett stärkt Claudes Position an den Spitzen der Programmierbenchmarks. Dennoch dominieren Rivalen wie Googles Gemini 2.5 Pro und OpenAIs o3 in Bereichen wie Mathematik, kreatives Schreiben und allgemeine Vernunftfähigkeit in vielen Sprachen. Amodei sieht die Zukunft der KI in kritischen Feldern wie Medizin, Psychologie und Recht, in denen Modellsicherheit und menschliche Werte von entscheidender Bedeutung sind. Dies wird deutlich: Anthropic ist das führende KI-Labor, das sich ausschließlich auf die Entwicklung "interpretabiler" KI-Modelle konzentriert. Interpretabile Modelle ermöglichen es, in einem gewissen Maße zu verstehen, was das Modell denkt und wie es zu bestimmten Schlussfolgerungen kommt. Amazon und Google haben bereits Milliarden von Dollar in Anthropic investiert, obwohl sie gleichzeitig eigene KI-Modelle bauen. Dies deutet darauf hin, dass Anthropics wettbewerbsfähiger Vorteil noch in den Kinderschuhen steckt. Interpretabile Modelle könnten laut Anthropic signifikant die langfristigen Betriebskosten reduzieren, die mit dem Debugging, Auditing und Risikominderung in komplexen KI-Bereitstellungen verbunden sind. Die Notwendigkeit von interpretabiler KI Bis vor kurzem glaubten viele, dass KI-Entwicklungen, die heute Claude, Gemini und ChatGPT eine außergewöhnliche Marktnachfrage ermöglichen, noch Jahre entfernt seien. Diese Modelle schieben jedoch bereits die Grenzen menschlichen Wissens voran und werden weit verbreitet, weil sie sehr gut geeignet sind, eine Vielzahl praktischer Probleme zu lösen, die kreative Problemlösung oder detaillierte Analysen erfordern. Bei der Verwendung dieser Modelle für zunehmend kritische Aufgaben ist es wichtig, dass sie genaue Antworten liefern. Amodei befürchtet, dass, wenn eine KI auf eine Anfrage reagiert, wir keine Ahnung haben, warum sie bestimmte Worte wählt oder warum sie gelegentlich Fehler macht, obwohl sie in der Regel genau ist. Solche Fehler — Halluzinationen von ungenauer Information oder Antworten, die nicht mit menschlichen Werten übereinstimmen — werden die KI-Modelle daran hindern, ihr volles Potenzial zu erreichen. Wir haben bereits viele Beispiele dafür gesehen, dass KI-Fehler und unethisches Verhalten weiterhin ein Problem darstellen. Für Amodei ist der beste Weg, diese Probleme zu lösen, das Verständnis, wie eine KI denkt: "Unsere Unfähigkeit, die internen Mechanismen der Modelle zu verstehen, bedeutet, dass wir solches [schädliches] Verhalten nicht sinnvoll vorhersagen können und daher Schwierigkeiten haben, es auszuschließen ... Wenn es stattdessen möglich wäre, in die Modelle hineinzusehen, könnten wir möglicherweise alle Ausbrüche systematisch blockieren und auch charakterisieren, welches gefährliche Wissen die Modelle besitzen." Amodei betrachtet die Undurchsichtigkeit der aktuellen Modelle auch als Hürde für die Bereitstellung von KI-Modellen in "kritisch wichtigen Finanz- oder Sicherheitssituationen", da wir das Verhalten der Modelle nicht vollständig einschränken können und selbst wenige Fehler sehr schädlich sein könnten. In Entscheidungsprozessen, die Menschen direkt betreffen, wie medizinische Diagnosen oder Hypothekenbewertungen, erfordern gesetzliche Vorschriften, dass KI ihre Entscheidungen erklärt. Ein Beispiel hierfür wäre eine Finanzinstitution, die ein großes Sprachgenerierungsmodell (LLM) zur Betrugserkennung einsetzt — Interpretabilität könnte bedeuten, dass eine abgelehnte Kreditanfrage einem Kunden nach gesetzlichen Vorgaben erklärt werden muss. Oder ein Hersteller, der seine Lieferketten optimiert — das Verständnis, warum eine KI einen bestimmten Lieferanten vorschlägt, könnte Effizienz steigern und unbeabsichtigte Engpässe verhindern. Aus diesem Grund erklärt Amodei: "Anthropic verstärkt seine Bemühungen zur Interpretabilität und hat sich das Ziel gesetzt, bis 2027 'Interpretabilität kann die meisten Modellprobleme zuverlässig erkennen' zu erreichen." Zum Erreichen dieses Ziels investierte Anthropic kürzlich 50 Millionen Dollar in Goodfire, ein KI-Forschungslabor, das bei der Entwicklung von KI-"Hirnscans" bemerkenswerte Fortschritte gemacht hat. Das Inspektionswerkzeug Ember von Goodfire ist ein neutrales Tool, das gelernte Konzepte innerhalb von Modellen identifiziert und Benutzern ermöglicht, diese zu manipulieren. In einer jüngeren Demonstration zeigte das Unternehmen, wie Ember einzelne visuelle Konzepte in einem Bildgenerierungsmodell erkennt und Benutzer diese dann auf einer Leinwand bearbeiten können, um neue Bilder zu erstellen, die den Wünschen des Benutzers entsprechen. Anthropics Investment in Ember lässt darauf schließen, dass die Entwicklung interpretabiler Modelle so schwierig ist, dass das Unternehmen nicht alleine die nötigen Ressourcen hat, um dies zu erreichen. Die Schaffung interpretabler Modelle erfordert neue Werkzeuge und qualifizierte Entwickler. Breiterer Kontext: Die Perspektive eines KI-Forschers Um Amodeis Position zu verfeinern und wichtigen Kontext zu liefern, interviewte VentureBeat Sayash Kapoor, einen KI-Sicherheitsforscher an der Princeton University. Kapoor ist Co-Autor des Buches "AI Snake Oil", das übertriebene Ansprüche zu den Fähigkeiten führender KI-Modelle kritisch prüft. Er ist auch Co-Autor von "AI als normale Technologie", in dem er den Standpunkt verteidigt, KI wie das Internet oder die Elektrizität als standardschaffende, transformatorische Technologie zu behandeln und eine realistische Perspektive auf ihre Integration in alltägliche Systeme zu fördern. Kapoor zweifelt nicht daran, dass Interpretabilität wertvoll ist. Dennoch ist er skeptisch, sie als zentralen Pfeiler der KI-Ausrichtung zu betrachten. "Es ist kein Allheilmittel," sagte Kapoor. Viele der effektivsten Sicherheitstechniken, wie das Filtern von Antworten nach der Generierung, erfordern gar nicht, dass das Modell geöffnet wird, fügte er hinzu. Er warnt auch vor dem, was Forscher als "Fallacy of Inscrutability" (Unlesbarkeitsfallstrick) bezeichnen — der Idee, dass ein System, dessen interne Mechanismen wir nicht vollständig verstehen, nicht verantwortungsvoll verwendet oder reguliert werden kann. In der Praxis wird die Transparenz jedoch nicht so, wie sie bei KI gefordert wird, bei den meisten Technologien evaluiert. Was zählt, ist, ob ein System unter realen Bedingungen zuverlässig performt. Dies ist nicht das erste Mal, dass Amodei die Gefahren einer KI, die unser Verständnis überflügelt, warnend in den Raum stellt. In seinem Oktober 2024 veröffentlichten Artikel "Machines of Loving Grace" skizzierte er eine Vision von immer fähigeren Modellen, die sinnvolle realweltliche Aktionen unternehmen können — vielleicht sogar unsere Lebenszeit verdoppeln. Laut Kapoor ist hierbei ein wichtiger Unterschied zu ziehen zwischen der Fähigkeit eines Modells und seiner Macht. Die Fähigkeiten der Modelle steigern sich zweifellos rapide, und sie könnten bald genug Intelligenz besitzen, um Lösungen für viele komplexe Probleme zu finden, die die Menschheit heute herausfordern. Ein Modell ist jedoch nur so mächtig, wie die Schnittstellen, die wir ihm zur Interaktion mit der realen Welt bieten, einschließlich Ort und Art der Bereitstellung. Amodei argumentiert zusätzlich, dass die USA ihre Führung in der KI-Entwicklung aufrechterhalten sollten, teilweise durch Exportkontrollen, die den Zugang zu leistungsstarken Modellen begrenzen. Die Idee dahinter ist, dass autoritäre Regierungen vordergründige KI-Systeme verantwortungslos nutzen könnten — oder den geopolitischen und wirtschaftlichen Vorteil erlangen, der damit verbunden ist, sie als Erste einzusetzen. Kapoor hält dagegen: "Selbst die größten Befürworter von Exportkontrollen stimmen zu, dass es uns höchstens ein oder zwei Jahre vorausbringen wird." Er denkt, wir sollten KI wie eine "normale Technologie" behandeln. Obwohl revolutionär, dauerte es Jahrzehnte, bis sowohl das Internet als auch die Elektrizität in der Gesellschaft vollständig realisiert wurden. Kapoor glaubt, dass es ähnlich für KI sein wird: Der beste Weg, um einen geopolitischen Vorteil zu wahren, besteht darin, den "langen Spielzug" der Transformation von Industrien zu unterstützen, die KI effektiv nutzen. Weitere Kritik an Amodei Kapoor ist nicht der Einzige, der Amodeis Position kritisiert. Im letzten Woche auf der VivaTech in Paris erklärte Jansen Huang, CEO von Nvidia, seinen Widerspruch gegen Amodeis Ansichten. Huang bezweifelte, ob die Entwicklung von KI auf wenige mächtige Entitäten wie Anthropic begrenzt werden sollte. Er sagte: "Wenn du Dinge sicher und verantwortungsvoll machen willst, tust du das im Offenen ... Mach es nicht im Dunkeln und sag mir, es sei sicher." Anthropic antwortete: "Dario hat niemals behauptet, dass 'nur Anthropic' sichere und leistungsstarke KI bauen kann. Wie die öffentlichen Aufzeichnungen zeigen, hat Dario sich für einen nationalen Transparenzstandard für KI-Entwickler (einschließlich Anthropic) eingesetzt, sodass das Publikum und die Entscheidungsträger über die Fähigkeiten und Risiken der Modelle informiert sind und entsprechend vorbereitet werden können." Es ist auch zu beachten, dass Anthropic nicht alleine auf dem Gebiet der Interpretabilität forscht: Googles DeepMind-Team, geleitet von Neel Nanda, hat ebenfalls wichtige Beiträge zur Interpretabilitätsforschung geleistet. Zusammenfassend bieten führende KI-Labore und -Forscher starke Beweise, dass Interpretabilität ein Schlüsseldifferenzierer im wettbewerbsintensiven KI-Markt sein könnte. Unternehmen, die früh Interpretabilität priorisieren, könnten durch die Entwicklung vertrauensvoller, regulatorisch einhaltender und flexibler KI-Systeme einen erheblichen wettbewerbsfähigen Vorteil erlangen. Interpretabilität wird von Branche-Insider als entscheidendes Element für die zukünftige Entwicklung von KI-Systemen angesehen. Anthropic, mit seiner starken Fokusrichtung auf Interpretabilität und dem Einsatz von human-wertbasierten Prinzipien, ist dabei ein Vorreiter. Die Investitionen von Amazon und Google in Anthropic unterstreichen das Potenzial, das in diesem Ansatz liegt, und legen nahe, dass der wettbewerbsfähige Vorteil des Unternehmens noch wachsen kann, wenn die Forschung erfolgreich ist.

Related Links