HyperAIHyperAI

Command Palette

Search for a command to run...

SubRegWeigh: Effektives und effizientes Annotieren mit Subword-Regularisierung

Kohei Tsuji¹, Tatsuya Hiraoka², Yuchang Cheng¹,³, Tomoya Iwakura¹,³

Zusammenfassung

NLP-Datensätze können selbst dann noch Annotationfehler enthalten, wenn sie manuell annotiert wurden. Forscher haben versucht, Methoden zu entwickeln, um die negativen Auswirkungen von Fehlern in Datensätzen automatisch zu reduzieren. Bestehende Methoden sind jedoch zeitaufwendig, da sie viele trainierte Modelle erfordern, um Fehler zu erkennen. In dieser Arbeit wird eine zeitersparende Methode vorgeschlagen, die eine Tokenisierungstechnik namens Subword-Regularisierung (subword regularization) verwendet, um mehrere Fehlererkennungsmodelle zur Erkennung von Fehlern zu simulieren. Unser vorgeschlagener Ansatz, SubRegWeigh, kann Annotationgewichtung vier- bis fünfmal schneller durchführen als bestehende Methoden. Darüber hinaus verbesserte SubRegWeigh die Leistung bei Dokumentklassifikations- und Named-Entity-Erkennungsaufgaben. In Experimenten mit pseudofalschen Labels identifizierte SubRegWeigh diese klar als Annotationfehler. Unser Code ist unter https://github.com/4ldk/SubRegWeigh verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp