HyperAIHyperAI

Command Palette

Search for a command to run...

vor 12 Tagen

Konsensbasierte Stichprobentechnik für sicherere generative KI

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

Konsensbasierte Stichprobentechnik für sicherere generative KI

Abstract

Viele Ansätze zur KI-Sicherheit basieren auf der Inspektion von Modellausgaben oder Aktivierungen, doch bestimmte Risiken sind allein durch Inspektion grundsätzlich nicht erkennbar. Wir schlagen einen ergänzenden, architekturunabhängigen Ansatz vor, der die Sicherheit durch die Aggregation mehrerer generativer Modelle erhöht, wobei das aggregierte Modell seine Sicherheit aus der sichersten Teilmenge von vorgegebener Größe innerhalb der gegebenen Modelle übernimmt. Konkret präsentieren wir einen Konsens-Sampling-Algorithmus, der bei gegebenen k Modellen und einer Eingabe (Prompt) ein Risiko erzielt, das dem Durchschnittsrisiko der sichersten s der k Modelle entspricht, wobei s ein vorgegebener Parameter ist, und abstinierend agiert, wenn zwischen den Modellen nicht ausreichend Übereinstimmung besteht. Der Ansatz nutzt die Fähigkeit der Modelle, Ausgabewahrscheinlichkeiten zu berechnen, und wir leiten eine obere Schranke für die Abstimmungswahrscheinlichkeit ab, sofern ausreichend viele Modelle sicher sind und ausreichend Übereinstimmung aufweisen. Der Algorithmus wird inspiriert durch den beweisbaren Schutzrechtsalgorithmus von Vyas et al. (2023). Er erfordert eine gewisse Überlappung unter den sicheren Modellen, bietet keinen Schutz, wenn alle Modelle unsicher sind, und kann sich bei wiederholter Nutzung akkumulieren. Dennoch liefern unsere Ergebnisse einen neuen, modellunabhängigen Ansatz für KI-Sicherheit, indem Sicherheitsgarantien von einer unbekannten Teilmenge von Modellen innerhalb einer Sammlung auf ein einzelnes zuverlässiges Modell vergrößert werden.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Konsensbasierte Stichprobentechnik für sicherere generative KI | Forschungsarbeiten | HyperAI