
要約
ニューラル抽出要約モデルは通常、文書のエンコーディングに階層型エンコーダーを用い、これらのモデルはヒューリスティックな手法を使用して規則に基づいて作成された文レベルのラベルを使用して訓練されます。このような\emph{不正確}なラベルで階層型エンコーダーを訓練することは困難です。最近のトランスフォーマー文エンコーダーの事前学習に関する研究\cite{devlin:2018:arxiv}に触発され、我々は{\sc Hibert}({\bf HI}erarchical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformersの略称)を提案し、無ラベルデータを使用してこれを事前学習する方法を開発しました。事前学習済みの{\sc Hibert}を要約モデルに適用した結果、CNN/Dailymailデータセットではランダム初期化されたモデルに対して1.25 ROUGEポイント上回り、New York Timesデータセットのバージョンでは2.0 ROUGEポイント上回りました。また、これらの2つのデータセットにおいて最先端の性能を達成しています。