HyperAIHyperAI

Command Palette

Search for a command to run...

Ein synthetischer Datensatz für die Inferenz persönlicher Attribute

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev

Zusammenfassung

Kürzlich sind leistungsstarke Sprachmodelle (Large Language Models, LLMs) weltweit Hunderten von Millionen Benutzern leicht zugänglich geworden. Ihre starken Fähigkeiten und umfangreichen Weltwissen bringen jedoch auch erhebliche Datenschutzrisiken mit sich. In dieser Arbeit konzentrieren wir uns auf die sich entwickelnde Datenschutzbedrohung, die LLMs darstellen – die Fähigkeit, persönliche Informationen aus Online-Texten genau zu schließen. Trotz der wachsenden Bedeutung des LLM-basierten Autorenprofiling, wird die Forschung in diesem Bereich durch den Mangel an geeigneten öffentlichen Datensätzen behindert, hauptsächlich aufgrund ethischer und datenschutzrechtlicher Bedenken im Zusammenhang mit echten persönlichen Daten. Um dieses Problem anzugehen, gehen wir zwei Schritte: (i) Wir erstellen ein Simulationsframework für das beliebte soziale Netzwerk Reddit unter Verwendung von LLM-Agenten, die mit synthetischen persönlichen Profilen versehen sind; (ii) mithilfe dieses Frameworks generieren wir SynthPAI, einen vielfältigen synthetischen Datensatz mit über 7800 manuell für persönliche Attribute gekennzeichneten Kommentaren. Wir validieren unseren Datensatz durch eine menschliche Studie, die zeigt, dass Menschen bei der Aufgabe, unsere synthetischen Kommentare von echten zu unterscheiden, nur knapp zufälliges Raten übertreffen. Darüber hinaus verifizieren wir, dass unser Datensatz sinnvolle Forschung zur Inferenz persönlicher Attribute ermöglicht, indem wir zeigen, dass unsere synthetischen Kommentare es uns ermöglichen, bei 18 aktuellen LLMs dieselben Schlussfolgerungen wie bei realen Daten zu ziehen. Insgesamt bilden unsere experimentellen Ergebnisse, der Datensatz und der Pipeline eine solide Grundlage für zukünftige datenschutzfreundliche Forschung zur Untersuchung und Minderung der durch LLMs bedingten inferenzbasierten Datenschutzbedrohungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein synthetischer Datensatz für die Inferenz persönlicher Attribute | Paper | HyperAI