2ヶ月前

個人属性推論用の合成データセット

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev
個人属性推論用の合成データセット
要約

最近、強力な大規模言語モデル(Large Language Models: LLMs)が世界中で数億のユーザーに容易に利用可能となっています。しかし、これらのモデルの強大な能力と広範な世界の知識は、プライバシー上のリスクを伴っています。本研究では、特にLLMが持つ新興のプライバシー脅威に焦点を当てます。それは、オンラインテキストから個人情報を正確に推測する能力です。LLMに基づく著者プロファイリングの重要性が高まっているにもかかわらず、この分野での研究は、実際の個人データに関連する倫理的およびプライバシー上の懸念により適切な公開データセットが不足しているために阻害されてきました。私たちはこの問題に対処するために2つのステップを取りました:(i) 合成された個人プロフィールをシードとして使用したLLMエージェントを用いて、人気のあるソーシャルメディアプラットフォームRedditのシミュレーションフレームワークを構築しました;(ii) このフレームワークを使用して、SynthPAIという名前の多様な合成データセットを生成しました。このデータセットには7800件以上のコメントが含まれており、個人属性について手動でラベル付けされています。私たちはヒューマンスタディによって、当該タスクにおいて人間が私たちの合成コメントと実際のコメントを区別することに関してランダムな推測を超える性能を示すことがほとんどないことを確認しました。さらに、18種類の最先端のLLMを使用して検証した結果、私たちの合成コメントは実世界データと同じ結論を導き出すことができることを示し、これにより当該データセットが有意義な個人属性推測研究を行うための基盤となることを確認しました。総合的に見て、当該実験結果、データセットおよびパイプラインは、将来のプライバシー保護研究における新規性と信頼性を形成し、LLMによる推測に基づくプライバシー脅威の理解と軽減を目指しています。

個人属性推論用の合成データセット | 最新論文 | HyperAI超神経