2ヶ月前

オープンドメインの質問応答におけるBERTのファインチューニングのためのデータ拡張

Wei Yang; Yuqing Xie; Luchen Tan; Kun Xiong; Ming Li; Jimmy Lin
オープンドメインの質問応答におけるBERTのファインチューニングのためのデータ拡張
要約

最近、既存の情報検索(IR)技術を用いた文書検索とBERTリーダーの単純な組み合わせが、Wikipedia上で直接質問応答を行うのに非常に効果的であることが明らかになりました。これにより、標準的なベンチマークデータセットにおける従来の最先端技術よりも大幅な改善がもたらされました。本論文では、正例および負例を活用する遠隔監督を使用したデータ拡張手法について紹介します。私たちは段階的なアプローチを採用し、テストデータから「最も遠い」データセットから始めて、「最も近い」データセットでBERTの微調整を終えます。実験結果は、英語のQAデータセットにおいて従来の手法に比べて大幅な効果向上を示しており、さらに2つの最近の中国語QAデータセットにおいて新たな基準を確立しています。