
要約
当社の知る限り、本研究はBERTを文書分類に応用した最初の事例を提示するものです。このタスクには、BERTが最も適していないモデルであると思われるいくつかの特徴があります:文法構造はコンテンツカテゴリにおいてそれほど重要ではなく、文書は一般的なBERT入力よりも長くなることが多く、また文書には複数のラベルが付与されることが多いです。しかしながら、我々は単純な分類モデルを使用してBERTが4つの主要データセットで最先端の性能を達成できることを示しています。BERT推論に関連する計算コストを解決するために、BERT-largeから小型双方向LSTMへの知識蒸留を行い、30倍少ないパラメータで複数のデータセットにおいてBERT-baseと同等の性能を達成しました。本論文の主な貢献は、将来の研究の基礎となる改良されたベースラインを提供することです。