2 个月前

Trankit:一种轻量级基于Transformer的多语言自然语言处理工具包

Minh Van Nguyen; Viet Dac Lai; Amir Pouran Ben Veyseh; Thien Huu Nguyen
Trankit:一种轻量级基于Transformer的多语言自然语言处理工具包
摘要

我们介绍了Trankit,一个基于Transformer的轻量级多语言自然语言处理(NLP)工具包。它为100多种语言提供了可训练的基础NLP任务管道,并为56种语言预训练了90个管道。基于最先进的预训练语言模型,Trankit在句子分割、词性标注、形态特征标注和依存句法分析等基础NLP任务上显著优于先前的多语言NLP管道,同时在90个通用依存树库上的分词、多词标记扩展和词形还原任务中保持了竞争力。尽管使用了大型预训练Transformer模型,我们的工具包在内存使用和速度方面仍然表现出高效性。这是通过我们创新的插件机制实现的,该机制利用适配器(Adapters),使得一个多语言预训练Transformer可以在不同语言的管道之间共享。我们的工具包及其预训练模型和代码已公开发布于:https://github.com/nlp-uoregon/trankit。此外,我们还提供了一个演示网站:http://nlp.uoregon.edu/trankit。最后,我们为Trankit制作了一个演示视频,地址为:https://youtu.be/q0KGP3zGjGc。