HyperAIHyperAI

Command Palette

Search for a command to run...

Eine Informationsextraktionstudie: Berücksichtigen Sie die Tokenisierung!

Christos Theodoropoulos Marie-Francine Moens

Zusammenfassung

Aktuelle Forschung zu den Vor- und Nachteilen der Verwendung von Zeichen anstelle von tokenisierter Texteingabe in tiefen Lernmodellen hat sich erheblich weiterentwickelt. Neue tokenfreie Modelle eliminieren die traditionelle Tokenisierungsschritt; ihre Effizienz bleibt jedoch unklar. Zudem ist die Wirkung der Tokenisierung in Aufgaben zur Sequenzmarkierung relativ wenig erforscht. Um dies zu adressieren, untersuchen wir den Einfluss der Tokenisierung bei der Informationsgewinnung aus Dokumenten und präsentieren eine vergleichende Studie sowie Analyse von Subword-basierten und zeichenbasierten Modellen. Konkret betrachten wir die Informationsextraktion (Information Extraction, IE) aus biomedizinischen Texten. Das Hauptergebnis ist zweifach: Tokenisierungsmuster können eine induktive Voreingenommenheit einführen, die zu state-of-the-art-Leistungen führt, und zeichenbasierte Modelle erzielen vielversprechende Ergebnisse; somit ist der Übergang zu tokenfreien IE-Modellen durchaus realisierbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp