
要約型スニペット(abstractive snippet)とは、検索結果ページ(SERP)上でウェブページを要約する目的で新たに生成されたテキストのことを指す。従来の抽出型スニペット(extractive snippet)がウェブページからそのまま文章やフレーズを抽出するのに対し、要約型スニペットは著作権問題を回避できるという利点を持つ。さらに興味深い点は、個人化の可能性を開放する点にある。要約型スニペットは、ユーザー受容性および表現力の観点から従来の抽出型スニペットと同等の性能を示すことが評価されているが、核心的な問いは依然として残っている。すなわち、十分な品質で自動的に要約型スニペットを生成することは可能だろうか?本論文では、要約型スニペット生成のための新アプローチを提案する。まず、遠隔教師信号(distant supervision)としての新たな大規模な2つのデータソースを同定した。それらは、アンカー文脈(anchor contexts)とウェブディレクトリ(web directories)である。ClueWeb09およびClueWeb12の全データからアンカー文脈を抽出し、DMOZ Open Directory Projectの情報を活用することで、Webis Abstractive Snippet Corpus 2020を構築した。このコーパスは、$\langle$query, snippet, document$\rangle$という形式の3つ組(triples)を350万件以上含んでおり、各スニペットは実際にクエリ依存の要約型スニペットであるのではなく、アンカー文脈またはウェブディレクトリの記述を代替として用いている。本研究では、双方向型の要約型スニペット生成モデルを提案し、標準的な評価指標、クラウドソーシング、および最先端手法との比較を通じて、コーパスの品質および生成されたスニペットの質を検証した。評価結果から、本研究で提示した新しいデータソースとモデルにより、実用的なクエリ依存の要約型スニペットを生成可能であり、かつテキストの再利用を最小限に抑えることが確認された。