مجموعة بيانات مصنعة لاستدلال الصفات الشخصية

في الآونة الأخيرة، أصبحت نماذج اللغات الكبيرة والقوية (Large Language Models - LLMs) متاحة بسهولة لمئات الملايين من المستخدمين حول العالم. ومع ذلك، فإن قدراتها القوية ومعرفتها الواسعة بالعالم لا تأتي دون مخاطر خصوصية مرتبطة بها. في هذا البحث، نركز على التهديد الجديد للخصوصية الذي تمثله هذه النماذج - القدرة على استنتاج المعلومات الشخصية بدقة من النصوص عبر الإنترنت. رغم أهمية المتزايدة لتصنيف المؤلفين باستخدام نماذج اللغات الكبيرة (LLM-based author profiling)، فإن الأبحاث في هذا المجال تعثرت بسبب نقص البيانات العامة المناسبة، وذلك أساساً بسبب المخاوف الأخلاقية والخصوصية المرتبطة بالبيانات الشخصية الحقيقية.لحل هذه المشكلة، اتخذنا خطوتين:(i) بنينا إطارًا محاكاة لمنصة التواصل الاجتماعي الشهيرة Reddit باستخدام وكلاء نماذج اللغات الكبيرة (LLM agents) وتم تغذيتهم بملفات شخصية صناعية (synthetic personal profiles).(ii) باستخدام هذا الإطار، أنشأنا مجموعة بيانات صناعية متنوعة تُسمى SynthPAI تتضمن أكثر من 7800 تعليق تم تصنيفها يدويًا حسب الصفات الشخصية.أثبتنا صحة مجموعة البيانات الخاصة بنا من خلال دراسة بشرية أظهرت أن البشر يتفوقون بشكل طفيف فقط على التخمين العشوائي في مهمة تمييز التعليقات الصناعية عن الحقيقية. علاوة على ذلك، أكدنا أن مجموعتنا البيانات تمكن البحث العلمي الهادف إلى استنتاج الصفات الشخصية بشكل معنى من خلال إظهار أن التعليقات الصناعية لدينا تسمح لنا بالتوصل إلى نفس الاستنتاجات التي يمكن الحصول عليها من البيانات الحقيقية عند استخدام 18 من أحدث نماذج اللغات الكبيرة (state-of-the-art LLMs).معًا، تشكل نتائج التجارب لدينا ومجموعة البيانات والخطوات العملية أساسًا قويًا للأبحاث المستقبلية الرامية إلى فهم وتخفيف التهديدات الخصوصية المستندة إلى الاستنتاج التي تمثلها نماذج اللغات الكبيرة (inference-based privacy threats).