Wissenschaftler entwickeln SafeKey, reduzieren Gefährdung von Sprachmodellen um 9,6%
Wissenschaftler haben den SafeKey-Rahmen entwickelt, der das Risiko gefährlicher Inferenzen in großen Modellen um 9,6 % senkt. Basierend auf zwei wichtigen Beobachtungen haben Forscher das SafeKey-Framework konzipiert, um die Sicherheit von Modellantworten insgesamt zu verbessern. Das Framework verstärkt die Sicherheitsindikatoren in "Schlüsselsätzen" und reduziert so das Risiko von gefährlichen Ausgaben. Um dies zu erreichen, wurde ein Dual-Path Safety Head (DPSH) entwickelt, der während des Trainingsprozesses zwei verschiedene Prädiktionswege integriert. Erstens analysiert dieser Sicherheitskopf den gesamten Inhalt vor einem Schlüsselsatz und zweitens das Verständnis des Modells für die Anfrage. Dadurch wird eine stärkere Sicherheitsindikation generiert, die das Modell dazu anhält, sicherheitsrelevante Antworten zu erzeugen. Zusätzlich zum DPSH schufen die Wissenschaftler ein Query-Mask Modeling (QMM). Dieses Modell verdeckt alle Tokens einer Eingabeanfrage während des Trainings, sodass das Modell nur auf Basis seiner eigenen Wiederholung und Interpretation der Anfrage Schlüsselsätze generiert. Dieser Ansatz zwingt das Modell, sich auf seine interne Verarbeitung und nicht auf externe Anweisungen zu stützen, die möglicherweise gefährliche Ausgaben verursachen könnten. Die Kombination aus DPSH und QMM führt dazu, dass das Modell selbstständig und sicherere Entscheidungen trifft. Es lernt, sich auf seine eigenen, frisch generierten und bereits mit Sicherheitsindikatoren versehenen interne Interpretationen zu verlassen, was die autonome und stabile Implementierung von Sicherheitsstrategien erheblich verstärkt. Die SafeKey-Technologie ist besonders relevant, da große Sprachmodelle in verschiedenen Anwendungsbereichen eingesetzt werden, von Chatbots bis hin zu medizinischen Diagnosehilfen. Die Fähigkeit, gefährliches Verhalten zu minimieren, ist entscheidend für die Akzeptanz und Verbreitung solcher Modelle in der Öffentlichkeit und in sensiblen Branchen. Industrieexperten loben die Innovation von SafeKey und sehen sie als wichtigen Schritt zur Steigerung der Sicherheit künstlicher Intelligenz. Das Unternehmen, das das Framework entwickelt hat, hat bereits positive Rückmeldungen von Testern erhalten und plant, die Technologie weiter zu optimieren und in kommerzielle Produkte zu integrieren. Das SafeKey-Framework ist ein bedeutender Fortschritt in der Entwicklung sicherer Sprachmodelle und könnte die Grundlage für zukünftige Regelungen und Standards in der Branche bilden. Es zeigt, dass durch gezieltes Design und Training von Sicherheitsmechanismen das Vertrauen in künstliche Intelligenz gesteigert werden kann.
