HyperAI

Laut einem Bericht der Website Business Insider vom 10. Juni wurde bei den neuesten Modellen von Anthropic, Mythos 5 und Fable 5, ein Mechanismus mit „versteckten Beschränkungen“ aufgedeckt: Wenn das Modell erkennt, dass sich der Benutzer mit Forschung oder Entwicklung im Bereich fortschrittlicher KI-Modelle beschäftigt, wird die Ausgabegewalt absichtlich verringert, anstatt die Anfrage direkt abzulehnen. Dieser Mechanismus wurde erstmals in den am Dienstag veröffentlichten System Cards für Mythos 5 und Fable 5 offengelegt. Anthropic begründete dies mit der Sorge, dass hochentwickelte AI-Systeme die Entwicklung gleichwertiger, ebenso fortschrittlicher Modelle beschleunigen könnten, ohne entsprechende Sicherheitsvorkehrungen zu gewährleisten. Im Gegensatz zu expliziten Schutzmaßnahmen gegen Risiken in den Bereichen Cybersicherheit sowie Biologie oder Chemie betonte Anthropic, dass diese Eingriffe für „den Nutzer vollständig unsichtbar“ seien – das Modell wechselt nicht einfach ab oder lehnt Anfragen ab, sondern passt die Antwortinhalte durch subtile Methoden wie heimliche Änderungen der Prompts an. Diese Praxis löste schnell Kontroversen innerhalb der KI-Branche aus. Das Forschungsinstitut SemiAnalysis äußerte sich auf X dahingehend, dass das Model bei Aufgaben zur ML-Forschung nicht nur keine Hilfe leiste, sondern auch „heimlich abgeschwächt werde“, was selbst „gewöhnlichen Ingenieuren möglicherweise entgehen würde“. Elie Bakouch, Experte für Modelloptimierung bei Prime Intellect, kritisierte: „Es ist bedauerlich, dass Mythos seine Leistung bei der KI-Frontierforschung vorsätzlich verschlechtert; noch beunruhigender ist jedoch, dass diese Einschränkung bewusst vor dem Nutzern verborgen bleibt.“ Weitere Entwickler merkten scharf an: „Das System hilft nicht nur nicht, es lügt sogar und liefert gezielt falsche Informationen.“ Mikel Artetxe, Mitgründer des KI-Startups Reka, verglich die Maßnahme mit Wettbewerbsstrategien großer Tech-Konzerne: „Das entspricht Apple Neustarts Ihres Macs beim Entwickeln einer Konkurrenzsoftware oder Gmails heimlichem Ändern von E-Mails, die Konkurrenten erwähnen.“ Der Vorfall hat die Diskussion um drei Spekulationen darüber verstärkt, warum Anthropic sein Myths-Modell bisher offiziell nicht eingeführt hat. Bisher gab es drei Theorien: Offiziell hieß es, das Modell sei zu gefährlich und man brauche Zeit, damit Sicherheitsexperten Vorbereitungen treffen können; eine weitere Theorie ging davon aus, dass das Modell aufgrund seiner Größe und unzureichender Ressourcen nicht bereitgestellt werden konnte; wieder andere wiesen auf das Risiko von „Distillation“ hin – also dass Konkurrenten ausgegebene Daten sammeln würden, um ihre eigenen Modelle darauf zu trainieren. Nun, da Anthropic die Forschungsbeschränkung formell in die Produktdokumentation aufgenommen hat, erscheint die Wettbewerbstheorie deutlich glaubwürdiger geworden.

Verwandte Links

Verwandte Links

Verwandte Links

Command Palette

Forscher kritisieren Anthropic

Verwandte Links

Command Palette

Forscher kritisieren Anthropic

Verwandte Links

Command Palette

Forscher kritisieren Anthropic

Verwandte Links