
추상적 스니펫(abstract snippet)은 검색 결과 페이지에서 웹 페이지를 요약하기 위해 원시적으로 생성된 텍스트를 의미한다. 기존의 추출적 스니펫(extractive snippet)이 웹 페이지에서 문장과 구절을 그대로 추출하여 생성하는 것과 달리, 추상적 스니펫은 저작권 문제를 회피할 수 있다. 더욱 흥미로운 점은, 개인화(personalization)의 가능성을 열어준다는 것이다. 추상적 스니펫은 사용자 수용도와 표현력 측면에서 기존의 추출적 스니펫과 동등한 성능을 보였다는 평가를 받고 있으나, 핵심적인 질문은 여전히 남아 있다. 즉, 충분한 품질을 갖춘 추상적 스니펫을 자동으로 생성할 수 있을까?본 논문에서는 추상적 스니펫 생성을 위한 새로운 접근법을 제안한다. 우선, 원격 감독(distant supervision)을 위한 최초의 두 가지 대규모 데이터 소스인 앵커 컨텍스트(anchor context)와 웹 디렉터리(web directory)를 식별한다. ClueWeb09 및 ClueWeb12 전체를 대상으로 앵커 컨텍스트를 추출하고, DMOZ 오픈 디렉터리 프로젝트(DMOZ Open Directory Project)를 활용하여, 총 350만 개 이상의 $\langle$query, snippet, document$\rangle$ 형태의 삼중항을 포함하는 Webis 추상적 스니펫 코퍼스 2020을 구축하였다. 여기서 스니펫은 실제 쿼리 기반 추상적 스니펫이 아닌, 앵커 컨텍스트 또는 웹 디렉터리 설명을 대체로 사용한다. 본 연구에서는 이중 방향 추상적 스니펫 생성 모델(bidirectional abstractive snippet generation model)을 제안하며, 표준 평가 지표와 커뮤니티 기반 평가(crowdsourcing), 그리고 최신 기술 대비 비교를 통해 본 연구의 코퍼스와 생성된 추상적 스니펫의 품질을 평가한다. 평가 결과, 제안된 새로운 데이터 소스와 모델을 통해 텍스트 재사용을 최소화하면서도 실용적인 쿼리 기반 추상적 스니펫을 효과적으로 생성할 수 있음을 입증하였다.