9日前
質問を生成するための学習:回答を含む文の回復により
{Jaegul Choo, Haejun Lee, Sai Chetan Chinthakindi, Akhil Kedia, Seohyun Back}

要約
機械的読解(MRC)に基づく質問応答モデルを訓練するには、文脈から質問とその正解を含む注釈付き訓練データを準備するための膨大な作業が必要となる。この課題を軽減するために、最近の研究では、追加の生成モデルを訓練することで、与えられた文脈と注釈付き(または生成された)正解から合成的に質問を生成するアプローチに注目が集まっている。この研究方向性を踏まえ、本研究では、正解を含む文を復元するというタスクを通じて、文脈的に豊かな質問を生成する能力を学習する新しい事前学習手法を提案する。本手法は、以下の2つの新規な構成要素から構成される:(1) 与えられた文書から動的にK個の正解を決定する機構、および (2) 正解を含む文を生成するタスクにおいて、質問生成器を事前学習するプロセス。提案手法の有効性は、合成的に生成されたデータ上で訓練されたモデルの微調整後のMRC精度および生成された質問の品質という観点から、既存手法と比較して評価されている。実験結果から、本手法はUniLMをはじめとする既存モデルの質問生成能力を一貫して向上させ、MS MARCOおよびNewsQAにおいて最先端の性能を達成し、SQuADにおいても最先端の手法と同等の結果を示した。さらに、本手法によって合成されたデータは、SQuAD-v1.1、v2.0、KorQuADなど多様な下流タスクにおいて、既存のMRCモデルに一切の変更を加えずに、下流のMRC精度を著しく向上させることを実証した。また、実験から、特に限られた量の訓練データが与えられた状況下において、事前学習段階および下流のMRCタスクにおけるデータ生成の両面で、本手法の優位性が顕著に示された。