Anthropics Fable-5-Sicherheitsfilter „verletzt fälschlicherweise“ alltägliche Fragen
In den letzten Tagen stellten Nutzer bei Tests des neuesten von Anthropic veröffentlichten Modells Claude Fable 5 fest, dass dieses auf grundlegende Fragen zu Biologie und Cybersicherheit eine ausgeprägte „Defensivhaltung“ zeigt. Laut einem Testbericht der Business Insider schaltet das Modell nach Eingabe konventioneller Anfragen zur Verbreitung von Krebsinformationen oder zur grundlegenden biologischen Klassifizierung schnell auf Opus 4.8 um und gibt einen Popup-Hinweis aus: „Sicherheitsmechanismen haben die meisten Themenbereiche Biologie/Cybersicherheit blockiert, was möglicherweise normale Inhalte beeinträchtigt.“ Fable 5 ist das erste öffentlich zugängliche Modell in Anthopics „Mythos-Klasse“. Das Unternehmen räumt ein, dass seine grundlegenden Fähigkeiten so leistungsstark sind, dass ihre direkte Öffnung mit dem Risiko eines Missbrauchs verbunden wäre. Aus diesem Grund hat Anthropic integrierte Sicherheitsklassifikatoren für drei Kategorien von Anforderungen entwickelt: Cybersicherheit, Bio-/Chemie sowie „Modell-Distillation“. Bei Aktivierung dieser Blockaden verweigert das Modell entweder direkt Antworten oder degradiert sich selbst auf Opus 4.8. Laut Angaben von Anthropic verfolgte der initiale Sicherheitsansatz eine „konservative Strategie“. Fortgeschrittene Modelle besitzen bereits die Fähigkeit, reale wissenschaftliche Aufgaben zu bewältigen, könnten jedoch auch für biologische Forschungsvorhaben mit hohem Risiko genutzt werden, weshalb die Schwellenwerte für Blockierungen erhöht wurden. Derzeit lösen etwa 95 % der Fable-5-Sitzungen keine Degradierung aus. Das Unternehmen verspricht, die Klassifikatoren weiter zu optimieren, um Fehlalarme zu reduzieren, und plant, diesen unbeschränkten Leistungsumfang zukünftig an die Lebenswissenschaftsgemeinschaft freizugeben, um Forschungsprozesse und Wirkstoffentwicklungen zu beschleunigen. David Kasten, Leiter Policy bei Palisade Research, bezeichnet diese Maßnahme als verantwortungsbewussten Versuch im Bereich Sicherheit, warnt jedoch gleichzeitig, dass solche Sicherungsmaßnahmen letztlich durchbrochen würden. Er mahnte zudem, dass häufige Degradierungen des Modells bei sensiblen Themen dazu führen könnten, dass die Öffentlichkeit das tatsächliche Leistungsvermögen von KI unterschätzt. Diese „kognitive Lücke“ könne regulatorische und sicherheitstechnische Risiken sogar erhöhen.
