HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

Parrot: Robustheitsbewertung der Ausgabewahrheit gegenüber Persuasion und Zustimmung – Ein Sycophancy-Robustheits-Benchmark für LLMs

Yusuf Çelebi Mahmoud El Hussieni Özay Ezerceli

Parrot: Robustheitsbewertung der Ausgabewahrheit gegenüber Persuasion und Zustimmung – Ein Sycophancy-Robustheits-Benchmark für LLMs

Abstract

Dies ist die Übersetzung des Textes ins Deutsche, verfasst im Stil eines wissenschaftlichen Abstracts:Diese Studie präsentiert PARROT (Persuasion and Agreement Robustness Rating of Output Truth), ein auf Robustheit ausgerichtetes Framework zur Messung des Genauigkeitsverlusts, der bei großen Sprachmodellen (Large Language Models, LLMs) unter sozialem Druck durch Autorität und Überzeugung auftritt – ein als Sykophantie (übermäßige Konformität) bekanntes Phänomen. PARROT (i) isoliert kausale Effekte durch den Vergleich einer neutralen Version derselben Frage mit einer autoritativ falschen Version mittels einer Doppelblind-Evaluation, (ii) quantifiziert Konfidenzverschiebungen hin zur korrekten sowie zur suggerierten falschen Antwort unter Verwendung von Log-Likelihood-basierter Kalibrierungsverfolgung und (iii) klassifiziert systematisch Fehlermodi (z. B. robust korrekt, sykophantische Zustimmung, verstärkter Fehler, hartnäckiger Fehler, Selbstkorrektur usw.) anhand einer achtstufigen Verhaltenstaxonomie.Wir evaluierten 22 Modelle unter Verwendung von 1.302 Multiple-Choice-Fragen im MMLU-Stil, die 13 verschiedene Domänen sowie domänenspezifische Autoritätsvorlagen abdecken. Die Ergebnisse zeigen eine ausgeprägte Heterogenität: Fortgeschrittene Modelle (z. B. GPT-5, GPT-4.1, Claude Sonnet 4.5) weisen niedrige „Befolgungsraten“ (Follow Rates) (≤ 11 %, GPT-5: 4 %) und minimalen Genauigkeitsverlust auf, während ältere oder kleinere Modelle einen schweren epistemischen Kollaps zeigen (GPT-4: 80 %, Qwen 2.5-1.5B: 94 %). Die Gefahr beschränkt sich nicht nur auf Änderungen der Antwort; schwache Modelle verringern das Vertrauen in die korrekte Antwort, während sie gleichzeitig das Vertrauen in die suggerierte falsche Antwort erhöhen. Während Völkerrecht und globales Wissen auf Domänenebene eine hohe Fragilität aufweisen, zeigt sich die elementare Mathematik als relativ resilient. Folglich argumentieren wir, dass das Ziel des „Widerstands gegen Überanpassungsdruck“ (resistance to overfitting pressure) als primäres Ziel neben Genauigkeit, Schadensvermeidung und Datenschutz für den sicheren Einsatz in der realen Welt priorisiert werden sollte.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Parrot: Robustheitsbewertung der Ausgabewahrheit gegenüber Persuasion und Zustimmung – Ein Sycophancy-Robustheits-Benchmark für LLMs | Forschungsarbeiten | HyperAI