استنتاج البيانات العامة والخاصة في الأنظمة القائمة على الاسترجاع

يُنتج المستخدمون والمنظمات كميات متزايدة باستمرار من البيانات الخاصة من مصادر متنوعة. يُعد دمج البيانات الخاصة أمرًا مهمًا لتحسين تخصيص التطبيقات في المجال المفتوح، مثل الإجابة على الأسئلة، والتحقق من الحقائق، والمساعدات الشخصية. تعتمد الأنظمة الرائدة في هذه المهام على استرجاع المعلومات ذات الصلة بسؤال المستخدم من مجموعة بيانات خلفية بشكل صريح قبل إنتاج الإجابة. وعلى الرغم من أن أنظمة الاسترجاع الحالية تفترض أن المجموعة الخلفية متاحة بالكامل، إلا أن المستخدمين غالبًا ما يعجزون عن الكشف عن بياناتهم الخاصة أمام الكيانات التي تُدير البيانات العامة. نُعرّف أولًا إطار عمل خصوصية يُسمى "استرجاع المعلومات التسلسلي العام-الخاص" (PAIR) لوضع استرجاع جديد يشمل عدة مجالات خصوصية. ثم نُبرِّر أن هناك نقصًا في المعايير المناسبة لدراسة إطار PAIR، لأن المعايير النصية الحالية تتطلب استرجاع البيانات من توزيع بيانات واحد فقط. ولكن من المفهوم أن البيانات العامة والبيانات الخاصة تعكس توزيعات مختلفة، مما يدفعنا إلى إنشاء ConcurrentQA، وهي أول معيار لاختبار الأسئلة والردود النصية التي تتطلب استرجاعًا متزامنًا عبر توزيعات بيانات متعددة. وأخيرًا، نُظهر أن الأنظمة الحالية تواجه تنازُعًا كبيرًا بين الخصوصية والأداء عند تطبيقها على بيئة الاسترجاع المقترحة، ونستكشف طرقًا لتقليل هذا التنازُع.