HyperAIHyperAI
vor 2 Monaten

Bewertung von unüberwachter Textklassifizierung: Zero-Shot- und Ähnlichkeitsbasierte Ansätze

Tim Schopf; Daniel Braun; Florian Matthes
Bewertung von unüberwachter Textklassifizierung: Zero-Shot- und Ähnlichkeitsbasierte Ansätze
Abstract

Die Textklassifizierung von unbekannten Klassen ist eine herausfordernde Aufgabe im Bereich der Natürlichen Sprachverarbeitung (NLP) und wird hauptsächlich mit zwei verschiedenen Ansätzen angegangen. Ähnlichkeitsbasierte Ansätze versuchen, Instanzen aufgrund von Ähnlichkeiten zwischen den Textdokumentdarstellungen und den Klassendeskriptordarstellungen zu klassifizieren. Zero-Shot-Textklassifizierungsansätze zielen darauf ab, Wissen aus einer Trainingsaufgabe zu verallgemeinern, indem sie passende Labels unbekannter Klassen an Textdokumente zuweisen. Obwohl bestehende Studien bereits einzelne Ansätze dieser Kategorien untersucht haben, bieten die Experimente in der Literatur keinen konsistenten Vergleich. Diese Arbeit schließt diese Lücke durch eine systematische Auswertung verschiedener ähmlichkeitsbasierter und Zero-Shot-Ansätze für die Textklassifizierung von unbekannten Klassen. Verschiedene Stand-of-the-Art-Ansätze werden anhand von vier Textklassifikationsdatensätzen evaluiert, darunter ein neuer Datensatz aus dem medizinischen Bereich. Zudem werden neue Baseline-Methoden basierend auf SimCSE und SBERT vorgeschlagen, da andere in bestehender Arbeit verwendete Baselines schwache Klassifikationsergebnisse erzielen und leicht übertroffen werden können. Schließlich wird der neuartige ähmlichkeitsbasierte Lbl2TransformerVec-Ansatz präsentiert, der in der unüberwachten Textklassifizierung vorherige Stand-of-the-Art-Ansätze übertrifft. Unsere Experimente zeigen, dass ähmlichkeitsbasierte Ansätze in den meisten Fällen signifikant besser abschneiden als Zero-Shot-Ansätze. Darüber hinaus führt die Verwendung von SimCSE- oder SBERT-Einbettungen anstelle einfacherer Textrepräsentationen zu weiter verbesserten Ergebnissen bei der ähmlichkeitsbasierten Klassifizierung.Bemerkung: Im obigen Text sind einige Wörter wie "ähnlichkeitsbasierter" und "ähmlichkeitsbasierte" fälschlicherweise mehrfach verwendet worden. Hier ist die korrigierte Version:Die Textklassifizierung von unbekannten Klassen ist eine herausfordernde Aufgabe im Bereich der Natürlichen Sprachverarbeitung (NLP) und wird hauptsächlich mit zwei verschiedenen Ansätzen angegangen. Ähnlichkeitsbasierte Ansätze versuchen, Instanzen aufgrund von Ähnlichkeiten zwischen den Textdokumentdarstellungen und den Klassendeskriptordarstellungen zu klassifizieren. Zero-Shot-Textklassifizierungsansätze zielen darauf ab, Wissen aus einer Trainingsaufgabe zu verallgemeinern, indem sie passende Labels unbekannter Klassen an Textdokumente zuweisen. Obwohl bestehende Studien bereits einzelne Ansätze dieser Kategorien untersucht haben, bieten die Experimente in der Literatur keinen konsistenten Vergleich. Diese Arbeit schließt diese Lücke durch eine systematische Auswertung verschiedener ähnlichkeitssbasierter und Zero-Shot-Ansätze für die Textklassifizierung von unbekannten Klassen. Verschiedene Stand-of-the-Art-Ansätze werden anhand von vier Textklassifikationsdatensätzen evaluiert, darunter ein neuer Datensatz aus dem medizinischen Bereich. Zudem werden neue Baseline-Methoden basierend auf SimCSE und SBERT vorgeschlagen, da andere in bestehender Arbeit verwendete Baselines schwache Klassifikationsergebnisse erzielen und leicht übertroffen werden können. Schließlich wird der neuartige similaritätsbasierte Lbl2TransformerVec-Ansatz präsentiert, der in der unüberwachten Textklassifizierung vorherige Stand-of-the-Art-Ansätze übertrifft. Unsere Experimente zeigen, dass similaritätsbasierte Ansätze in den meisten Fällen signifikant besser abschneiden als Zero-Shot-Ansätze. Darüber hinaus führt die Verwendung von SimCSE- oder SBERT-Einbettungen anstelle einfacherer Textrepräsentationen zu weiter verbesserten Ergebnissen bei der similaritätsbasierten Klassifizierung.Korrektur: Die korrekte Version sollte lauten:Die Textklassifizierung von unbekannten Klassen ist eine herausfordernde Aufgabe im Bereich der Natürlichen Sprachverarbeitung (NLP) und wird hauptsächlich mit zwei verschiedenen Ansätzen angegangen. Ähnlichkeitsbasierte Ansätze versuchen, Instanzen aufgrund von Ähnlichkeiten zwischen den Textdokumentdarstellungen und den Klassendeskriptordarstellungen zu klassifizieren. Zero-Shot-Textklassifizierungsansätze zielen darauf ab, Wissen aus einer Trainingsaufgabe zu verallgemeinern, indem sie passende Labels unbekannter Klassen an Textdokumente zuweisen. Obwohl bestehende Studien bereits einzelne Ansätze dieser Kategorien untersucht haben, bieten die Experimente in der Literatur keinen konsistenten Vergleich. Diese Arbeit schließt diese Lücke durch eine systematische Auswertung verschiedener ähnlichkeitssbasierter und Zero-Shot-Ansätze für die Textklassifizierung von unbekannten Klassen. Verschiedene State-of-the-Art-Ansätze werden anhand von vier Textklassifikationsdatensätzen evaluiert, darunter ein neuer Datensatz aus dem medizinischen Bereich (medical domain). Zudem werden neue Baseline-Methoden basierend auf SimCSE und SBERT vorgeschlagen, da andere in bestehender Arbeit verwendete Baselines schwache Klassifikationsergebnisse erzielen und leicht übertroffen werden können (outperformed). Schließlich wird der neuartige ähnlichkeitsbasierte Lbl2TransformerVec-Ansatz präsentiert (Lbl2TransformerVec approach), der in der unüberwachten Textklassifizierung vorherige State-of-the-Art-Ansätze übertrifft (unsupervised text classification). Unsere Experimente zeigen, dass ähnlichkeitsbasierte Ansätze in den meisten Fällen signifikant besser abschneiden als Zero-Shot-Ansätze (significantly outperform zero-shot approaches). Darüber hinaus führt die Verwendung von SimCSE- oder SBERT-Einbettungen anstelle einfacherer Textrepräsentationen zu weiter verbesserten Ergebnissen bei der ähnlichkeitsbasierten Klassifizierung (increases similarity-based classification results even further).Fehlerkorrektur: In deutscher Sprache sollte es heißen "State-of-the-Art" statt "Stand-of-the-Art". Daher lautet die endgültige korrigierte Version:Die Textklassifizierung von unbekannten Klassen ist eine herausfordernde Aufgabe im Bereich der Natürlichen Sprachverarbeitung (NLP) und wird hauptsächlich mit zwei verschiedenen Ansätzen angegangen. Ähnlichkeitsbasierte Ansätze versuchen, Instanzen aufgrund von Ähnlichkeiten zwischen den Textdokumentdarstellungen und den Klassendeskriptordarstellungen zu klassifizieren. Zero-Shot-Textklassifizierungsansätze zielen darauf ab, Wissen aus einer Trainingsaufgabe zu verallgemeinern, indem sie passende Labels unbekannter Klassen an Textdokumente zuweisen. Obwohl bestehende Studien bereits einzelne Ansätze dieser Kategorien untersucht haben, bieten die Experimente in der Literatur keinen konsistenten Vergleich. Diese Arbeit schließt diese Lücke durch eine systematische Auswertung verschiedener ähnlichkeitssbasierter und Zero-Shot-Ansätze für die Textklassifizierung von unbekannten Klassen. Verschiedene State-of-the-Art-Ansätze werden anhand von vier Textklassifikationsdatensätzen evaluiert, darunter ein neuer Datensatz aus dem medizinischen Bereich (medical domain). Zudem werden neue Baseline-Methoden basierend auf SimCSE und SBERT vorgeschlagen, da andere in bestehender Arbeit verwendete Baselines schwache Klassifikationsergebnisse erzielen und leicht übertroffen werden können (outperformed). Schließlich wird der neuartige ähnlichkeitsbasierte Lbl2TransformerVec-Ansatz präsentiert (Lbl2TransformerVec approach), der in der unüberwachten Textklassifizierung vorherige State-of-the-Art-Ansätze übertrifft (unsupervised text classification). Unsere Experimente zeigen, dass ähnlichkeitsbasierte Ansätze in den meisten Fällen signifikant besser abschneiden als Zero-Shot-Ansätze (significantly outperform zero-shot approaches). Darüber hinaus führt die Verwendung von SimCSE- oder SBERT-Einbettungen anstelle einfacherer Textrepräsentationen zu weiter verbesserten Ergebnissen bei der ähnlichkeitsbasierten Klassifizierung (increases similarity-based classification results even further).

Bewertung von unüberwachter Textklassifizierung: Zero-Shot- und Ähnlichkeitsbasierte Ansätze | Neueste Forschungsarbeiten | HyperAI