HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات مصنعة لاستدلال الصفات الشخصية

Hanna Yukhymenko; Robin Staab; Mark Vero; Martin Vechev

الملخص

في الآونة الأخيرة، أصبحت نماذج اللغات الكبيرة والقوية (Large Language Models - LLMs) متاحة بسهولة لمئات الملايين من المستخدمين حول العالم. ومع ذلك، فإن قدراتها القوية ومعرفتها الواسعة بالعالم لا تأتي دون مخاطر خصوصية مرتبطة بها. في هذا البحث، نركز على التهديد الجديد للخصوصية الذي تمثله هذه النماذج - القدرة على استنتاج المعلومات الشخصية بدقة من النصوص عبر الإنترنت. رغم أهمية المتزايدة لتصنيف المؤلفين باستخدام نماذج اللغات الكبيرة (LLM-based author profiling)، فإن الأبحاث في هذا المجال تعثرت بسبب نقص البيانات العامة المناسبة، وذلك أساساً بسبب المخاوف الأخلاقية والخصوصية المرتبطة بالبيانات الشخصية الحقيقية.لحل هذه المشكلة، اتخذنا خطوتين:(i) بنينا إطارًا محاكاة لمنصة التواصل الاجتماعي الشهيرة Reddit باستخدام وكلاء نماذج اللغات الكبيرة (LLM agents) وتم تغذيتهم بملفات شخصية صناعية (synthetic personal profiles).(ii) باستخدام هذا الإطار، أنشأنا مجموعة بيانات صناعية متنوعة تُسمى SynthPAI تتضمن أكثر من 7800 تعليق تم تصنيفها يدويًا حسب الصفات الشخصية.أثبتنا صحة مجموعة البيانات الخاصة بنا من خلال دراسة بشرية أظهرت أن البشر يتفوقون بشكل طفيف فقط على التخمين العشوائي في مهمة تمييز التعليقات الصناعية عن الحقيقية. علاوة على ذلك، أكدنا أن مجموعتنا البيانات تمكن البحث العلمي الهادف إلى استنتاج الصفات الشخصية بشكل معنى من خلال إظهار أن التعليقات الصناعية لدينا تسمح لنا بالتوصل إلى نفس الاستنتاجات التي يمكن الحصول عليها من البيانات الحقيقية عند استخدام 18 من أحدث نماذج اللغات الكبيرة (state-of-the-art LLMs).معًا، تشكل نتائج التجارب لدينا ومجموعة البيانات والخطوات العملية أساسًا قويًا للأبحاث المستقبلية الرامية إلى فهم وتخفيف التهديدات الخصوصية المستندة إلى الاستنتاج التي تمثلها نماذج اللغات الكبيرة (inference-based privacy threats).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp