HyperAIHyperAI
vor 2 Monaten

SubRegWeigh: Effektives und effizientes Annotieren mit Subword-Regularisierung

Kohei Tsuji; Tatsuya Hiraoka; Yuchang Cheng; Tomoya Iwakura
SubRegWeigh: Effektives und effizientes Annotieren mit Subword-Regularisierung
Abstract

NLP-Datensätze können selbst dann noch Annotationfehler enthalten, wenn sie manuell annotiert wurden. Forscher haben versucht, Methoden zu entwickeln, um die negativen Auswirkungen von Fehlern in Datensätzen automatisch zu reduzieren. Bestehende Methoden sind jedoch zeitaufwendig, da sie viele trainierte Modelle erfordern, um Fehler zu erkennen. In dieser Arbeit wird eine zeitersparende Methode vorgeschlagen, die eine Tokenisierungstechnik namens Subword-Regularisierung (subword regularization) verwendet, um mehrere Fehlererkennungsmodelle zur Erkennung von Fehlern zu simulieren. Unser vorgeschlagener Ansatz, SubRegWeigh, kann Annotationgewichtung vier- bis fünfmal schneller durchführen als bestehende Methoden. Darüber hinaus verbesserte SubRegWeigh die Leistung bei Dokumentklassifikations- und Named-Entity-Erkennungsaufgaben. In Experimenten mit pseudofalschen Labels identifizierte SubRegWeigh diese klar als Annotationfehler. Unser Code ist unter https://github.com/4ldk/SubRegWeigh verfügbar.

SubRegWeigh: Effektives und effizientes Annotieren mit Subword-Regularisierung | Neueste Forschungsarbeiten | HyperAI