13日前
リトリーブベースシステムにおける公開データと非公開データの推論
Simran Arora, Patrick Lewis, Angela Fan, Jacob Kahn, Christopher Ré

要約
ユーザーおよび組織は、多様なソースからますます増加する個人データを生成している。こうした個人データを活用することは、質問応答や事実検証、パーソナルアシスタントなど、オープンドメインのアプリケーションをパーソナライズする上で重要である。現在の最先端システムは、回答を生成する前に、背景コーパスからユーザーの質問に関連する情報を明示的に取得する。しかし、現在の検索システムはコーパスが完全にアクセス可能であることを前提としている一方で、ユーザーは自らの個人データを公開データをホストする第三者に開示することができない、あるいは意図しない場合が多い。本研究では、複数のプライバシー領域をカバーする新たな検索設定に対応するため、PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL(PAIR)というプライバシー枠組みを初めて定義する。さらに、既存のテキストベースのベンチマークは単一のデータ分布からの検索を要求するため、PAIRの研究には適切なベンチマークが欠けていると指摘する。一方で、公開データと個人データは直感的に異なるデータ分布を反映しているため、本研究では、複数のデータ分布から同時に検索を要求する、初めてのテキスト型QAベンチマークであるConcurrentQAを提案する。最後に、既存のシステムが本研究で提案する検索設定に適用された際、プライバシーと性能の間で大きなトレードオフが生じることを示し、こうしたトレードオフを軽減する方法について検討する。