HyperAIHyperAI
vor 2 Monaten

Ein synthetischer Datensatz für die Inferenz persönlicher Attribute

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev
Ein synthetischer Datensatz für die Inferenz persönlicher Attribute
Abstract

Kürzlich sind leistungsstarke Sprachmodelle (Large Language Models, LLMs) weltweit Hunderten von Millionen Benutzern leicht zugänglich geworden. Ihre starken Fähigkeiten und umfangreichen Weltwissen bringen jedoch auch erhebliche Datenschutzrisiken mit sich. In dieser Arbeit konzentrieren wir uns auf die sich entwickelnde Datenschutzbedrohung, die LLMs darstellen – die Fähigkeit, persönliche Informationen aus Online-Texten genau zu schließen. Trotz der wachsenden Bedeutung des LLM-basierten Autorenprofiling, wird die Forschung in diesem Bereich durch den Mangel an geeigneten öffentlichen Datensätzen behindert, hauptsächlich aufgrund ethischer und datenschutzrechtlicher Bedenken im Zusammenhang mit echten persönlichen Daten. Um dieses Problem anzugehen, gehen wir zwei Schritte: (i) Wir erstellen ein Simulationsframework für das beliebte soziale Netzwerk Reddit unter Verwendung von LLM-Agenten, die mit synthetischen persönlichen Profilen versehen sind; (ii) mithilfe dieses Frameworks generieren wir SynthPAI, einen vielfältigen synthetischen Datensatz mit über 7800 manuell für persönliche Attribute gekennzeichneten Kommentaren. Wir validieren unseren Datensatz durch eine menschliche Studie, die zeigt, dass Menschen bei der Aufgabe, unsere synthetischen Kommentare von echten zu unterscheiden, nur knapp zufälliges Raten übertreffen. Darüber hinaus verifizieren wir, dass unser Datensatz sinnvolle Forschung zur Inferenz persönlicher Attribute ermöglicht, indem wir zeigen, dass unsere synthetischen Kommentare es uns ermöglichen, bei 18 aktuellen LLMs dieselben Schlussfolgerungen wie bei realen Daten zu ziehen. Insgesamt bilden unsere experimentellen Ergebnisse, der Datensatz und der Pipeline eine solide Grundlage für zukünftige datenschutzfreundliche Forschung zur Untersuchung und Minderung der durch LLMs bedingten inferenzbasierten Datenschutzbedrohungen.

Ein synthetischer Datensatz für die Inferenz persönlicher Attribute | Neueste Forschungsarbeiten | HyperAI