
要約
事前学習済み言語モデル(PLM)の登場により、テキスト分類を含む多くの自然言語処理(NLP)タスクにおいて著しい成果が得られている。これらのモデルを用いる際には、特徴工学(feature engineering)が最小限または不要であるため、PLMは現在、あらゆるNLPタスクにおける標準的な選択肢となっている。しかし、金融、法務、産業など特定のドメインに特化したコーパスにおいては、特定のタスク向けに事前学習モデルを微調整(fine-tuning)することで、性能の向上が確認されている。本論文では、4種類の異なるPLMについて、3つの公開ドメインフリーのデータセットおよびドメイン固有語彙を含む実世界のデータセット上で、TF-IDFによるベクトル化を用いた単純な線形SVM分類器と比較して性能を検証した。4つのデータセットにおける実験結果から、微調整を施したPLMを用いても、線形SVM分類器に比べて顕著な性能向上が得られないことが明らかになった。したがって、本研究では、テキスト分類タスクにおいては、慎重な特徴工学を施した従来のSVMが、PLMよりも低コストかつ優れた性能を発揮する可能性があると提言する。