16日前

DaCy:デンマーク語NLPのための統合枠組み

Kenneth Enevoldsen, Lasse Hansen, Kristoffer Nielbo
DaCy:デンマーク語NLPのための統合枠組み
要約

近年、デンマーク語自然言語処理(NLP)は複数の新しいデータセットおよびモデルの追加により著しい進歩を遂げてきた。しかし現在のところ、デンマーク語における最先端モデルを統合的に適用するための整合性のあるフレームワークは存在しない。本研究では、SpaCyを基盤として構築された、デンマーク語NLPの統合的フレームワーク「DaCy」を提案する。DaCyは、固有表現抽出(NER)、品詞タグ付け、依存構文解析において最先端の性能を達成する効率的なマルチタスクモデルを採用している。また、感情分析、感情認識、主観性検出など既存モデルの容易な統合を可能にするツールも含んでいる。さらに、DaNEテストセットの拡張を用いて、デンマーク語NLPパイプラインのバイアスおよびロバスト性について一連の評価を行った。DaCy largeは、長文入力や綴りの変化・誤りに対して特に高いロバスト性を示し、他のモデルと比較しても優れた性能を発揮している。一方、DaCy largeを除くすべてのモデルは人種に関する有意なバイアスを示したが、性別に関する有意なバイアスはポリグロット(Polyglot)のみに見られた。本研究では、ベンチマークデータセットが限られている言語において、データ拡張がより現実的で細分化された性能評価を得る上で特に有効であると主張する。本研究では、低・中リソース言語向け言語モデルのより包括的な評価に向けた第一歩として、複数のデータ拡張ツール(augmenter)を提供し、今後のさらなる開発を促す。

DaCy:デンマーク語NLPのための統合枠組み | 最新論文 | HyperAI超神経