
要約
テキストの機械理解は自然言語処理における重要な問題である。最近公開されたデータセット、スタンフォード質問応答データセット(Stanford Question Answering Dataset, SQuAD)は、クラウドソーシングによって人間が作成した多数の実際の質問とその答えを提供している。SQuADは、以前のデータセットと比較して、答えが少数の候補から選ばれるものではなく、長さも可変であるため、機械理解アルゴリズムの評価に挑戦的なテストベッドを提供する。本研究では、このタスク向けのエンドツーエンドのニューラルアーキテクチャを提案する。このアーキテクチャは、我々が以前に提案したテキスト的意味包含(textual entailment)モデルであるマッチLSTM(match-LSTM)と、Vinyalsら(2015)が提案した出力トークンを入力シーケンスから制約するシーケンス・トゥ・シーケンスモデルであるポインタネット(Pointer Net)に基づいている。我々は、ポインタネットを使用する2つの方法を提案する。実験結果によると、我々が提案した2つのモデルはRajpurkarら(2016)がロジスティック回帰と手動で設計された特徴量を使用して得た最良の結果を大幅に上回っていることが示された。