11日前
事前学習されたテキストtoテキストモデルを長文シーケンスに適応する
Wenhan Xiong, Anchit Gupta, Shubham Toshniwal, Yashar Mehdad, Wen-tau Yih

要約
我々は、既存の事前学習済みテキストtoテキストモデルを長文入力に適応させる実証的研究を提示する。事前学習パイプラインの3つの側面——モデルアーキテクチャ、最適化目的、事前学習コーパス——に沿った包括的な検討を通じて、既存の短文対応モデルから長文対応モデルを構築する効果的な手法を提案する。具体的には、Transformerにおける完全自己注意(full attention)を、プーリング拡張付きブロック単位注意(pooling-augmented blockwise attention)に置き換え、長さが異なるスパンを用いたマスクされたスパン予測タスクでモデルを事前学習する。事前学習コーパスに関しては、大規模なオープンドメインコーパスからランダムに連結された短文ドキュメントを用いることで、従来の長文コーパス(通常、ドメインカバレッジが限られている)を用いる場合よりも優れた性能が得られることを発見した。これらの知見を基に構築した長文対応モデルは、長文QAタスクにおいて競争力ある性能を達成し、5つの長文要約データセットにおいて新たなSOTA(最良の成果)を樹立した。これは、より大きなモデルサイズを用いた従来手法を上回る結果を示している。本研究のコードは、https://github.com/facebookresearch/bart_ls にて公開されている。