vor 8 Monaten

Zusammenfassung

Kürzlich sind leistungsstarke Sprachmodelle (Large Language Models, LLMs) weltweit Hunderten von Millionen Benutzern leicht zugänglich geworden. Ihre starken Fähigkeiten und umfangreichen Weltwissen bringen jedoch auch erhebliche Datenschutzrisiken mit sich. In dieser Arbeit konzentrieren wir uns auf die sich entwickelnde Datenschutzbedrohung, die LLMs darstellen – die Fähigkeit, persönliche Informationen aus Online-Texten genau zu schließen. Trotz der wachsenden Bedeutung des LLM-basierten Autorenprofiling, wird die Forschung in diesem Bereich durch den Mangel an geeigneten öffentlichen Datensätzen behindert, hauptsächlich aufgrund ethischer und datenschutzrechtlicher Bedenken im Zusammenhang mit echten persönlichen Daten. Um dieses Problem anzugehen, gehen wir zwei Schritte: (i) Wir erstellen ein Simulationsframework für das beliebte soziale Netzwerk Reddit unter Verwendung von LLM-Agenten, die mit synthetischen persönlichen Profilen versehen sind; (ii) mithilfe dieses Frameworks generieren wir SynthPAI, einen vielfältigen synthetischen Datensatz mit über 7800 manuell für persönliche Attribute gekennzeichneten Kommentaren. Wir validieren unseren Datensatz durch eine menschliche Studie, die zeigt, dass Menschen bei der Aufgabe, unsere synthetischen Kommentare von echten zu unterscheiden, nur knapp zufälliges Raten übertreffen. Darüber hinaus verifizieren wir, dass unser Datensatz sinnvolle Forschung zur Inferenz persönlicher Attribute ermöglicht, indem wir zeigen, dass unsere synthetischen Kommentare es uns ermöglichen, bei 18 aktuellen LLMs dieselben Schlussfolgerungen wie bei realen Daten zu ziehen. Insgesamt bilden unsere experimentellen Ergebnisse, der Datensatz und der Pipeline eine solide Grundlage für zukünftige datenschutzfreundliche Forschung zur Untersuchung und Minderung der durch LLMs bedingten inferenzbasierten Datenschutzbedrohungen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Ein synthetischer Datensatz für die Inferenz persönlicher Attribute | Paper | HyperAI

Command Palette

Ein synthetischer Datensatz für die Inferenz persönlicher Attribute

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein synthetischer Datensatz für die Inferenz persönlicher Attribute

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein synthetischer Datensatz für die Inferenz persönlicher Attribute

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters