11日前
マペット:プレファインチューニングを用いたマス・マルチタスク表現
Armen Aghajanyan, Anchit Gupta, Akshat Shrivastava, Xilun Chen, Luke Zettlemoyer, Sonal Gupta

要約
我々は、言語モデルの事前学習と微調整の間に追加の大规模な学習段階として「事前微調整(pre-finetuning)」を提案する。事前微調整は、約50のデータセット(合計で480万件以上のラベル付き例)を用いた大規模な多タスク学習であり、さまざまなタスクに一般化しやすい表現を学習することを促進することを目的としている。我々は、事前微調整が、文の予測、常識的推論、MRC(機械的読解)など、幅広いタスクにおいて事前学習済みの識別モデル(例:RoBERTa)および生成モデル(例:BART)の性能を一貫して向上させることを示す。また、微調整段階におけるサンプル効率も顕著に改善することが明らかになった。さらに、大規模な多タスク学習が極めて重要であることも示した。タスク数が少ない状態では、ある臨界点(通常は15以上)に達するまで、事前微調整は性能を低下させることがあるが、その後、タスク数に比例して性能が線形に向上することが確認された。