Schlussfolgerung über öffentliche und private Daten in abfragbaren Systemen

Benutzer und Organisationen erzeugen zunehmend größere Mengen an privaten Daten aus einer Vielzahl von Quellen. Die Einbeziehung privater Daten ist entscheidend, um offene Domänen-Anwendungen wie Fragenbeantwortung, Faktenüberprüfung und persönliche Assistenten zu personalisieren. Moderne Systeme für diese Aufgaben ziehen vor der Antwortgenerierung explizit relevante Informationen aus einer Hintergrund-Korpus zu einer Benutzerfrage ab. Während heutige Retrieval-Systeme davon ausgehen, dass das Korpus vollständig zugänglich ist, sind Benutzer oft nicht in der Lage oder nicht bereit, ihre privaten Daten Entitäten zur Verfügung zu stellen, die öffentliche Daten hosten. Zunächst definieren wir den PRIVAT-ÖFFENTLICH AUTOREGRESSIVEN INFORMATIONSSUCH- (PAIR) Datenschutzrahmen für die neuartige Suchsituation über mehrere Datenschutz-Ebenen. Anschließend argumentieren wir, dass ein angemessener Benchmark fehlt, um PAIR zu untersuchen, da bestehende textbasierte Benchmarks nur die Suche innerhalb einer einzigen Datensammlung erfordern. Da öffentliche und private Daten jedoch intuitiv unterschiedliche Verteilungen widerspiegeln, motiviert uns dies, ConcurrentQA zu entwickeln – den ersten textbasierten QA-Benchmark, der eine gleichzeitige Suche über mehrere Datensammlungen erfordert. Schließlich zeigen wir, dass bestehende Systeme bei der Anwendung auf unsere vorgeschlagene Suchsituation große Kompromisse zwischen Datenschutz und Leistung eingehen und untersuchen, wie diese Kompromisse gemildert werden können.