vor 17 Tagen

DATUM: Anomalieerkennung in Texten mittels selbstüberwachtem Lernen von Transformers

Andrei Manolache, Florin Brad, Elena Burceanu

Abstract

Die Nutzung tiefer Lernmodelle für die Anomalieerkennung (Anomaly Detection, AD) hat in den letzten Jahren aufgrund ihrer überlegenen Leistung gegenüber herkömmlichen Methoden stark zugenommen. Neuere tiefgreifende Ansätze zur Anomalieerkennung in Bildern lernen in einem end-to-end selbstüberwachten Setting verbesserte Merkmale der Normalität. Diese Methoden trainieren ein Modell, um verschiedene Transformationen visueller Daten voneinander zu unterscheiden, und nutzen anschließend die Ausgabe, um eine Anomaliebewertung zu berechnen. Wir übertragen diesen Ansatz auf den Bereich Text, indem wir eine neuartige Vorverarbeitungsaufgabe (pretext task) für Textsequenzen einführen. Unser DATE-Modell wird end-to-end trainiert und erhält zwei unabhängige und ergänzende selbstüberwachte Signale – eines auf Token-Ebene und eines auf Sequenzebene. Unter dieser neuen Aufgabenformulierung erzielen wir starke quantitative und qualitative Ergebnisse auf den Datensätzen 20Newsgroups und AG News. Im semi-supervised Szenario übertrifft DATE die bisher besten Ergebnisse um jeweils +13,5 % und +6,9 % (AUROC). Im unsupervised Setup übertrifft DATE alle anderen Methoden sogar dann, wenn 10 % seiner Trainingsdaten durch Ausreißer verunreinigt sind (im Vergleich zu 0 % bei den anderen Methoden).