HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

Zu gut, um schlecht zu sein: Über den Misserfolg von LLMs beim Rollenspiel von Bösewichten

Zu gut, um schlecht zu sein: Über den Misserfolg von LLMs beim Rollenspiel von Bösewichten

Abstract

Große Sprachmodelle (LLMs) werden zunehmend mit kreativen Generierungsaufgaben betraut, darunter auch der Simulation fiktiver Charaktere. Ihre Fähigkeit, nicht-prosoziale, feindselige Persönlichkeiten authentisch darzustellen, wurde jedoch weitgehend unerforscht. Wir vermuten, dass die Sicherheitsausrichtung moderner LLMs einen grundlegenden Widerspruch zur Aufgabe der authentischen Darstellung moralisch ambivalenter oder böswilliger Charaktere schafft. Um dies zu untersuchen, stellen wir den Moral RolePlay-Benchmark vor, eine neue Datensammlung mit einer vierstufigen Skala zur moralischen Ausrichtung und einem ausgewogenen Testset zur rigorosen Evaluation. Wir beauftragen state-of-the-art LLMs mit der Darstellung von Charakteren, die von moralischen Vorbildern bis hin zu reinen Bösewichten reichen. Unsere großangelegte Evaluation zeigt eine konsistente, monoton abnehmende Treue der Charakterdarstellung, je mehr sich die Moralität des Charakters verschlechtert. Wir stellen fest, dass die Modelle besonders Schwierigkeiten mit Merkmalen haben, die direkt im Widerspruch zu Sicherheitsprinzipien stehen, wie beispielsweise „Täuschend“ und „Manipulativ“. Oft ersetzen sie dabei fein abgestufte Bösartigkeit durch oberflächliche Aggressivität. Zudem zeigen wir, dass die allgemeine Fähigkeit eines Chatbots, in Gesprächen zu agieren, ein schlechter Prädiktor für die Fähigkeit zur Bösewicht-Darstellung ist, wobei besonders stark sicherheitsausgerichtete Modelle erheblich schlechter abschneiden. Unsere Arbeit liefert erstmals systematische Belege für diese kritische Beschränkung und hebt einen zentralen Spannungsverhältnis zwischen Modellsicherheit und kreativer Authentizität hervor. Unser Benchmark und die Ergebnisse eröffnen den Weg für die Entwicklung feinere, kontextbewusste Ausrichtungsmethoden.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zu gut, um schlecht zu sein: Über den Misserfolg von LLMs beim Rollenspiel von Bösewichten | Forschungsarbeiten | HyperAI