要約
自然言語理解は、テキストの含意(textual entailment)、質問応答(question answering)、意味的類似性評価、ドキュメント分類など、多様なタスクを含む。大規模なラベルなしテキストコーパスは豊富である一方で、これらの特定タスクを学習するためのラベル付きデータは限られているため、従来の判別型(discriminative)モデルでは十分な性能を発揮することが難しい。本研究では、多様なラベルなしテキストコーパス上で言語モデルを生成型(generative)事前学習した後、各タスクごとに判別型微調整(discriminative fine-tuning)を行うことで、これらのタスクにおいて大幅な性能向上が達成できることを示す。従来の手法とは異なり、微調整段階でタスクに適した入力変換(task-aware input transformations)を活用することで、モデル構造の最小限の変更で効果的な知識転移を実現している。本手法は、自然言語理解の広範なベンチマークにおいて有効性を実証した。特に、タスクに依存しない汎用モデルとして設計された本手法は、各タスクに特化したアーキテクチャを用いた従来の判別型モデルを上回り、検証した12のタスクのうち9つで、既存の最良手法を大きく上回る成果を達成した。たとえば、常識的推論(Stories Cloze Test)では8.9%、質問応答(RACE)では5.7%、テキスト含意(MultiNLI)では1.5%の絶対的性能向上を達成した。