2달 전
Trankit: 다국어 자연어 처리를 위한 경량 트랜스포머 기반 툴킷
Minh Van Nguyen; Viet Dac Lai; Amir Pouran Ben Veyseh; Thien Huu Nguyen

초록
우리는 다국어 자연어 처리(NLP)를 위한 경량 트랜스포머 기반 툴킷인 Trankit을 소개합니다. 이 툴킷은 100여 개 언어에 대한 기본적인 NLP 작업을 수행할 수 있는 학습 가능한 파이프라인을 제공하며, 56개 언어에 대해 90개의 사전 학습된 파이프라인을 포함하고 있습니다. 최신 사전 학습 언어 모델을 기반으로 구축된 Trankit은 문장 분절, 품사 태깅, 형태소 특성 태깅, 의존 관계 분석 등에서 이전의 다국어 NLP 파이프라인보다 크게 우수한 성능을 보여주며, 90개의 Universal Dependencies 트리뱅크에서 토큰화, 복합 단어 토큰 확장, 원형 복원 등에서도 경쟁력 있는 성능을 유지합니다. 대규모 사전 학습 트랜스포머를 사용함에도 불구하고, 우리의 툴킷은 메모리 사용과 속도 면에서 여전히 효율적입니다. 이는 다양한 언어의 파이프라인 간에 다국어 사전 학습 트랜스포머를 공유하는 새로운 플러그 앤 플레이 메커니즘(Adapters) 덕분입니다. 우리의 툴킷 및 사전 학습된 모델과 코드는 다음과 같은 주소에서 공개적으로 이용 가능합니다: https://github.com/nlp-uoregon/trankit. 또한, 우리 툴킷의 데모 웹사이트는 다음과 같은 주소에서 이용 가능합니다: http://nlp.uoregon.edu/trankit. 마지막으로, Trankit의 데모 영상은 다음과 같은 주소에서 확인할 수 있습니다: https://youtu.be/q0KGP3zGjGc.