2ヶ月前
Trankit: 軽量のトランスフォーマーをベースとした多言語自然言語処理ツールキット
Minh Van Nguyen; Viet Dac Lai; Amir Pouran Ben Veyseh; Thien Huu Nguyen

要約
私たちは、軽量のトランスフォーマーを基盤とする多言語自然言語処理(NLP)ツールキットであるTrankitを紹介します。このツールキットは100以上の言語に対する基本的なNLPタスクの学習可能なパイプラインを提供し、56の言語に対して90の事前学習済みパイプラインを備えています。最先端の事前学習済み言語モデルに基づいて構築されたTrankitは、文分割、品詞タグ付け、形態素特徴タグ付け、および依存関係解析において以前の多言語NLPパイプラインを大幅に上回り、90のUniversal Dependencies木構造データセットにおけるトークン化、複合単語トークン展開、および基本形還元においても競争力のある性能を維持しています。大規模な事前学習済みトランスフォーマーを使用しているにもかかわらず、当社のツールキットはメモリ使用量と速度において効率的です。これは、異なる言語のパイプライン間で多言語事前学習済みトランスフォーマーを共有するアダプターを使用した独自のプラグアンドプレイ機構により実現されています。当社のツールキットおよび事前学習済みモデルとコードは公開されており、以下のURLからアクセスできます: https://github.com/nlp-uoregon/trankit。また、当社のツールキットを使用したデモンストレーションウェブサイトも利用可能です: http://nlp.uoregon.edu/trankit。最後に、Trankitに関するデモビデオを作成しており、以下のURLで視聴できます: https://youtu.be/q0KGP3zGjGc。