vor einem Monat

Oyster-I: Weiter als die Ablehnung – Konstruktive Sicherheitsausrichtung für verantwortungsvolle Sprachmodelle

Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

Abstract

Große Sprachmodelle (LLMs) setzen typischerweise Sicherheitsmechanismen ein, um die Erzeugung schädlicher Inhalte zu verhindern. Die meisten aktuellen Ansätze konzentrieren sich eng auf Risiken, die von böswilligen Akteuren ausgehen, wobei Risiken oft als adversarielle Ereignisse gefasst und auf abwehrende Verweigerungen zurückgegriffen wird. In der Praxis entstehen Risiken jedoch ebenso von nicht-böswilligen Nutzern, die in psychischer Belastung Hilfe suchen (z. B. bei Suizidgedanken). In solchen Fällen kann die Reaktion des Modells entscheidenden Einfluss auf die nächsten Handlungen des Nutzers ausüben. Einfache Verweigerungen können dazu führen, dass Nutzer ihre Anfragen wiederholen, eskalieren oder zu unsicheren Plattformen wechseln, was zu schlechteren Ergebnissen führt. Wir stellen Constructive Safety Alignment (CSA) vor – ein menschenzentriertes Paradigma, das sowohl gegen böswillige Missbrauchsfälle schützt als auch verletzliche Nutzer aktiv in Richtung sicherer und hilfreicher Antworten führt. In Oyster-I (Oy1) integriert CSA eine spieltheoretische Vorhersage von Nutzerreaktionen, eine feinabgestimmte Identifikation von Risikogrenzen sowie eine interpretierbare Steuerung der Schlussfolgerungsprozesse und wandelt Sicherheit in einen vertrauensbildenden Prozess um. Oy1 erreicht unter den offenen Modellen einen Stand der Technik in Bezug auf Sicherheit, während gleichzeitig hohe allgemeine Fähigkeiten erhalten bleiben. Auf unserem Constructive Benchmark zeigt Oy1 eine starke konstruktive Interaktion, nahe an GPT-5, und eine bisher unerreichte Robustheit im Strata-Sword-Jailbreak-Datensatz, annähernd auf dem Niveau von GPT-o1. Durch die Verschiebung von einer Verweigerung-erst- zu einer Führung-erst-Sicherheitsstrategie redefiniert CSA die Beziehung zwischen Modell und Nutzer und strebt Systeme an, die nicht nur sicher, sondern auch wirklich hilfreich sind. Wir veröffentlichen Oy1, den Quellcode und den Benchmark, um verantwortungsvolle, nutzerzentrierte KI zu unterstützen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Oyster-I: Weiter als die Ablehnung – Konstruktive Sicherheitsausrichtung für verantwortungsvolle Sprachmodelle

Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

Abstract

KI mit KI entwickeln

Hyper Newsletters