Raisonnement sur des données publiques et privées dans les systèmes basés sur la récupération

Les utilisateurs et les organisations produisent des quantités croissantes de données privées provenant d’une large variété de sources. L’intégration de ces données privées est essentielle pour personnaliser les applications à domaine ouvert telles que la réponse à des questions, le vérification de faits ou les assistants personnels. Les systèmes d’avant-garde pour ces tâches récupèrent explicitement, avant de générer une réponse, des informations pertinentes par rapport à une question utilisateur à partir d’un corpus de fond. Bien que les systèmes de récupération actuels supposent que ce corpus soit entièrement accessible, les utilisateurs sont souvent incapables ou réticents à exposer leurs données privées à des entités hébergeant des données publiques. Nous définissons d’abord un cadre de confidentialité, nommé Récupération d’Information Autoregressive Publique-Privée (PAIR), pour ce nouveau scénario de récupération couvrant plusieurs niveaux de confidentialité. Nous soulignons ensuite qu’un benchmark adéquat fait défaut pour étudier le cadre PAIR, car les benchmarks textuels existants supposent une récupération à partir d’une seule distribution de données. Or, les données publiques et privées reflètent intuitivement des distributions différentes, ce qui nous motive à introduire ConcurrentQA, le premier benchmark de question-réponse textuelle exigeant une récupération simultanée sur plusieurs distributions de données. Enfin, nous montrons que les systèmes existants font face à de fortes compromis entre confidentialité et performance lorsqu’ils sont appliqués à notre cadre de récupération proposé, et nous explorons des moyens de réduire ces compromis.