Trankit: Ein leichtgewichtiges Transformer-basiertes Toolkit für mehrsprachige Natürliche Sprachverarbeitung

Wir stellen Trankit vor, ein leichtgewichtiges Toolkit auf Basis von Transformer-Modellen für die mehrsprachige Verarbeitung natürlicher Sprache (NLP). Es bietet eine trainierbare Pipeline für grundlegende NLP-Aufgaben in über 100 Sprachen sowie 90 vortrainierte Pipelines für 56 Sprachen. Aufbauend auf einem state-of-the-art vortrainierten Sprachmodell übertrifft Trankit bei den Aufgaben Satzsegmentierung, Part-of-Speech-Tagging, morphologische Merkmalskennzeichnung und Abhängigkeitsanalyse erheblich die bisherigen mehrsprachigen NLP-Pipelines, während es gleichzeitig wettbewerbsfähige Leistungen bei der Tokenisierung, der Erweiterung von Mehrworttokens und der Lemmatisierung in 90 Universal Dependencies-Baumbanken aufweist. Trotz der Verwendung eines großen vortrainierten Transformers ist unser Toolkit sowohl im Speicherverbrauch als auch in der Geschwindigkeit effizient. Dies wird durch unseren neuartigen Plug-and-Play-Mechanismus mit Adapters erreicht, bei dem ein mehrsprachiger vortrainierter Transformer über verschiedene Pipelines für unterschiedliche Sprachen geteilt wird. Unser Toolkit einschließlich der vortrainierten Modelle und des Codes ist öffentlich verfügbar unter: https://github.com/nlp-uoregon/trankit. Eine Demowebsite für unser Toolkit ist ebenfalls verfügbar unter: http://nlp.uoregon.edu/trankit. Schließlich haben wir ein Demonstrationsvideo für Trankit erstellt, das unter folgendem Link zu finden ist: https://youtu.be/q0KGP3zGjGc.