HyperAIHyperAI
vor 17 Tagen

Eine Informationsextraktionstudie: Berücksichtigen Sie die Tokenisierung!

Christos Theodoropoulos, Marie-Francine Moens
Eine Informationsextraktionstudie: Berücksichtigen Sie die Tokenisierung!
Abstract

Aktuelle Forschung zu den Vor- und Nachteilen der Verwendung von Zeichen anstelle von tokenisierter Texteingabe in tiefen Lernmodellen hat sich erheblich weiterentwickelt. Neue tokenfreie Modelle eliminieren die traditionelle Tokenisierungsschritt; ihre Effizienz bleibt jedoch unklar. Zudem ist die Wirkung der Tokenisierung in Aufgaben zur Sequenzmarkierung relativ wenig erforscht. Um dies zu adressieren, untersuchen wir den Einfluss der Tokenisierung bei der Informationsgewinnung aus Dokumenten und präsentieren eine vergleichende Studie sowie Analyse von Subword-basierten und zeichenbasierten Modellen. Konkret betrachten wir die Informationsextraktion (Information Extraction, IE) aus biomedizinischen Texten. Das Hauptergebnis ist zweifach: Tokenisierungsmuster können eine induktive Voreingenommenheit einführen, die zu state-of-the-art-Leistungen führt, und zeichenbasierte Modelle erzielen vielversprechende Ergebnisse; somit ist der Übergang zu tokenfreien IE-Modellen durchaus realisierbar.