
要約
質問応答(QA)モデルは通常、大規模なトレーニングデータセットに依存しており、手動でのラベル付与のコストを低減するため、データ生成フレームワークの開発が不可欠である。近年、単一の連続スパンを答えとする合成質問の生成を目的としたいくつかの研究が行われているが、複数の非連続スパンを答えとするリスト形式の質問(list questions)の生成に関する研究はこれまで行われていなかった。このギャップを埋めるために、本研究では、ラベルなしコーパスからリストQAデータセットを自動生成するためのフレームワーク「LIQUID」を提案する。まず、WikipediaやPubMedの本文を要約し、その要約テキストから固有表現(named entities)を抽出することで、候補となる答えを獲得する。これにより、文脈的に意味的に関連性のある答えを選定でき、リスト形式の質問の構築に適した答えの選択が可能となる。次に、抽出された固有表現と元の本文を用いて、既存の質問生成ツールを活用して質問を生成する。最後に、反復的なフィルタリングと答えの拡張処理を実施することで、答えの正確性と完全性を確保する。本研究で生成した合成データを用いることで、従来の最良性能を示していたリストQAモデルの性能が、MultiSpanQAでは正確一致F1スコアで5.0ポイント、Quorefでは1.9ポイント、および3つのBioASQベンチマークの平均で2.8ポイント向上した。