17日前

事前学習された言語モデルをn-gram表現を用いて制御することで、低リソースドメイン適応を実現する

{Tong Zhang, Yan Song, Yilei Jiang, Hongjin Su, Ruijia Xu, Shizhe Diao}
事前学習された言語モデルをn-gram表現を用いて制御することで、低リソースドメイン適応を実現する
要約

BERTなどの大規模な事前学習モデルは、汎用ドメイン上で学習された場合でも、さまざまな下流NLPタスクの性能を向上させることが知られている。さらに最近の研究では、特定ドメインの大量コーパスが利用可能な場合、そのドメイン固有データ上で継続的な事前学習を行うことで、ドメイン内タスクの性能がさらに向上することが示されている。しかし、このようなアプローチは、大量のドメイン固有データおよび膨大な計算リソースを必要とし、常に利用可能とは限らない。本論文では、比較的小規模なドメイン固有データを用いて、汎用事前学習モデルを適応させる手法を提案する。我々は、未観測のドメイン固有語彙に対して、(語ベースの)n-gramを用いた明示的な多粒度情報の統合が、汎用事前学習モデルの性能を著しく向上させることを示す。具体的には、新ドメインにおける語の異なる組み合わせの意味表現を効果的に学習・統合できる、Transformerベースのドメイン意識型n-gram適応器T-DNAを導入する。実験結果から、T-DNAは4つのドメインに属する8つの低リソース下流タスクにおいて有効性が確認された。限られたデータ量と低い計算コストで、既存手法と比較して多くのタスクで顕著な性能向上を達成できることを示した。さらに、詳細な分析により、未観測語彙および異なる粒度の情報の重要性と有効性が明らかになった。本研究のコードは、https://github.com/shizhediao/T-DNA にて公開されている。