2ヶ月前

類似性指標を用いたNERの事前学習データ選択

Xiang Dai; Sarvnaz Karimi; Ben Hachey; Cecile Paris
類似性指標を用いたNERの事前学習データ選択
要約

大量の無ラベルデータで事前学習された単語ベクトルと言語モデル(LMs)は、様々な自然言語処理(NLP)タスクの性能を大幅に向上させる可能性があります。しかし、事前学習データとターゲットタスクデータの類似性の測定方法やその影響は、直感に任されることが多いです。本研究では、ソースの事前学習データとターゲットタスクデータ間の類似性を異なる側面から量化的に評価するための3つのコスト効率の高い指標を提案します。これらの指標が30組のデータペアにおいて、事前学習済みモデルが固有表現認識(NER)にどれほど有用かを良好に予測できることを示しています。また、結果は事前学習済みの言語モデルが単語ベクトルよりも効果的かつ予測可能であることを示唆していますが、事前学習データが異なっている場合には単語ベクトルの方が優れていることがわかりました。