15日前

複文に基づくTransformer事前学習による複文推論

Luca Di Liello, Siddhant Garg, Luca Soldaini, Alessandro Moschitti

要約

回答文の選択（AS2）や事実検証などの推論タスクは、通常、トランスフォーマーに基づくモデルを個別に文対分類器としてファインチューニングすることで解決される。近年の研究では、複数の候補文間の依存関係を統合的にモデル化することで、これらのタスクの性能が向上することが示されている。本論文では、まず、代表的な事前学習済みトランスフォーマーが、複数候補文を扱う推論タスクにおけるファインチューニングに用いられた場合、著しく性能が劣ることを示す。その後、複数の入力文間にわたる段落レベルの意味構造をモデル化する新しい事前学習目的を提案する。3つのAS2データセットおよび1つの事実検証データセットにおける実験結果から、本研究で提案する事前学習手法が、複数候補文推論タスクにおける統合モデルとしてのトランスフォーマー、およびこれらのタスクの文対形式を扱うクロスエンコーダとしての利用において、従来の手法を上回ることを実証した。本研究のコードおよび事前学習済みモデルは、https://github.com/amazon-research/wqa-multi-sentence-inference にて公開されている。