
要約
遠隔教師付きオープンドメイン質問応答(DS-QA)は、ラベルの付いていないテキストの集合から答えを発見することを目的としている。既存のDS-QAモデルは、大規模なコロナから関連する段落を検索し、読解理解技術を用いて最も関連性の高い段落から答えを抽出する。しかし、これらのモデルは他の段落に含まれる豊富な情報を無視している。さらに、遠隔教師付きデータには必然的に誤ったラベル付け(誤ラベル)の問題が伴い、これらのノイズを含むデータはDS-QAモデルの性能を著しく低下させる。こうした問題に対処するため、本研究では新しいDS-QAモデルを提案する。このモデルは、ノイズを含む段落をフィルタリングする「段落選択器」と、ノイズ除去された段落から正解を抽出する「段落読解器」を組み合わせている。実世界のデータセットを用いた実験結果から、本モデルがノイズを含むデータから有用な情報を抽出でき、従来のすべてのベースラインモデルと比較して顕著な性能向上を達成できることを示した。