13일 전

기반 검색 시스템에서 공개 및 비공개 데이터에 대한 추론

Simran Arora, Patrick Lewis, Angela Fan, Jacob Kahn, Christopher Ré
기반 검색 시스템에서 공개 및 비공개 데이터에 대한 추론
초록

사용자와 기관들은 다양한 출처에서 점점 더 많은 개인 데이터를 생성하고 있다. 질문 응답, 사실 확인, 개인 비서와 같은 개방형 도메인 응용 프로그램을 개인화하기 위해 개인 데이터를 통합하는 것은 매우 중요하다. 이러한 작업을 위한 최신 시스템들은 답변을 생성하기 전에 백그라운드 코퍼스에서 사용자 질문과 관련된 정보를 명시적으로 검색한다. 현재의 검색 시스템은 코퍼스가 완전히 접근 가능하다고 가정하지만, 사용자들은 종종 자신의 개인 데이터를 공공 데이터를 호스팅하는 기관에 노출하는 것에 대한 능력이나 의지가 부족하다. 본 연구에서는 다중 개인정보 보호 범위를 고려한 새로운 검색 환경을 위해 PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL (PAIR)라는 개인정보 보호 프레임워크를 정의한다. 이후 기존 텍스트 기준 평가 지표들이 단일 데이터 분포에서의 검색을 요구하기 때문에 PAIR 연구를 위한 적절한 벤치마크가 부족하다고 주장한다. 공개 데이터와 개인 데이터는 직관적으로 서로 다른 분포를 반영하므로, 본 연구는 다중 데이터 분포에 걸쳐 동시 검색을 요구하는 최초의 텍스트 기반 질의응답 벤치마크인 ConcurrentQA를 제안한다. 마지막으로, 기존 시스템이 본 연구에서 제안한 검색 환경에 적용될 경우 개인정보 보호와 성능 사이에 큰 트레이드오프가 발생함을 보이고, 이러한 트레이드오프를 완화하는 방법을 탐구한다.

기반 검색 시스템에서 공개 및 비공개 데이터에 대한 추론 | 최신 연구 논문 | HyperAI초신경