HyperAIHyperAI

Command Palette

Search for a command to run...

Bewertung von unüberwachter Textklassifizierung: Zero-Shot- und Ähnlichkeitsbasierte Ansätze

Tim Schopf Daniel Braun Florian Matthes

Zusammenfassung

Die Textklassifizierung von unbekannten Klassen ist eine herausfordernde Aufgabe im Bereich der Natürlichen Sprachverarbeitung (NLP) und wird hauptsächlich mit zwei verschiedenen Ansätzen angegangen. Ähnlichkeitsbasierte Ansätze versuchen, Instanzen aufgrund von Ähnlichkeiten zwischen den Textdokumentdarstellungen und den Klassendeskriptordarstellungen zu klassifizieren. Zero-Shot-Textklassifizierungsansätze zielen darauf ab, Wissen aus einer Trainingsaufgabe zu verallgemeinern, indem sie passende Labels unbekannter Klassen an Textdokumente zuweisen. Obwohl bestehende Studien bereits einzelne Ansätze dieser Kategorien untersucht haben, bieten die Experimente in der Literatur keinen konsistenten Vergleich. Diese Arbeit schließt diese Lücke durch eine systematische Auswertung verschiedener ähmlichkeitsbasierter und Zero-Shot-Ansätze für die Textklassifizierung von unbekannten Klassen. Verschiedene Stand-of-the-Art-Ansätze werden anhand von vier Textklassifikationsdatensätzen evaluiert, darunter ein neuer Datensatz aus dem medizinischen Bereich. Zudem werden neue Baseline-Methoden basierend auf SimCSE und SBERT vorgeschlagen, da andere in bestehender Arbeit verwendete Baselines schwache Klassifikationsergebnisse erzielen und leicht übertroffen werden können. Schließlich wird der neuartige ähmlichkeitsbasierte Lbl2TransformerVec-Ansatz präsentiert, der in der unüberwachten Textklassifizierung vorherige Stand-of-the-Art-Ansätze übertrifft. Unsere Experimente zeigen, dass ähmlichkeitsbasierte Ansätze in den meisten Fällen signifikant besser abschneiden als Zero-Shot-Ansätze. Darüber hinaus führt die Verwendung von SimCSE- oder SBERT-Einbettungen anstelle einfacherer Textrepräsentationen zu weiter verbesserten Ergebnissen bei der ähmlichkeitsbasierten Klassifizierung.Bemerkung: Im obigen Text sind einige Wörter wie "ähnlichkeitsbasierter" und "ähmlichkeitsbasierte" fälschlicherweise mehrfach verwendet worden. Hier ist die korrigierte Version:Die Textklassifizierung von unbekannten Klassen ist eine herausfordernde Aufgabe im Bereich der Natürlichen Sprachverarbeitung (NLP) und wird hauptsächlich mit zwei verschiedenen Ansätzen angegangen. Ähnlichkeitsbasierte Ansätze versuchen, Instanzen aufgrund von Ähnlichkeiten zwischen den Textdokumentdarstellungen und den Klassendeskriptordarstellungen zu klassifizieren. Zero-Shot-Textklassifizierungsansätze zielen darauf ab, Wissen aus einer Trainingsaufgabe zu verallgemeinern, indem sie passende Labels unbekannter Klassen an Textdokumente zuweisen. Obwohl bestehende Studien bereits einzelne Ansätze dieser Kategorien untersucht haben, bieten die Experimente in der Literatur keinen konsistenten Vergleich. Diese Arbeit schließt diese Lücke durch eine systematische Auswertung verschiedener ähnlichkeitssbasierter und Zero-Shot-Ansätze für die Textklassifizierung von unbekannten Klassen. Verschiedene Stand-of-the-Art-Ansätze werden anhand von vier Textklassifikationsdatensätzen evaluiert, darunter ein neuer Datensatz aus dem medizinischen Bereich. Zudem werden neue Baseline-Methoden basierend auf SimCSE und SBERT vorgeschlagen, da andere in bestehender Arbeit verwendete Baselines schwache Klassifikationsergebnisse erzielen und leicht übertroffen werden können. Schließlich wird der neuartige similaritätsbasierte Lbl2TransformerVec-Ansatz präsentiert, der in der unüberwachten Textklassifizierung vorherige Stand-of-the-Art-Ansätze übertrifft. Unsere Experimente zeigen, dass similaritätsbasierte Ansätze in den meisten Fällen signifikant besser abschneiden als Zero-Shot-Ansätze. Darüber hinaus führt die Verwendung von SimCSE- oder SBERT-Einbettungen anstelle einfacherer Textrepräsentationen zu weiter verbesserten Ergebnissen bei der similaritätsbasierten Klassifizierung.Korrektur: Die korrekte Version sollte lauten:Die Textklassifizierung von unbekannten Klassen ist eine herausfordernde Aufgabe im Bereich der Natürlichen Sprachverarbeitung (NLP) und wird hauptsächlich mit zwei verschiedenen Ansätzen angegangen. Ähnlichkeitsbasierte Ansätze versuchen, Instanzen aufgrund von Ähnlichkeiten zwischen den Textdokumentdarstellungen und den Klassendeskriptordarstellungen zu klassifizieren. Zero-Shot-Textklassifizierungsansätze zielen darauf ab, Wissen aus einer Trainingsaufgabe zu verallgemeinern, indem sie passende Labels unbekannter Klassen an Textdokumente zuweisen. Obwohl bestehende Studien bereits einzelne Ansätze dieser Kategorien untersucht haben, bieten die Experimente in der Literatur keinen konsistenten Vergleich. Diese Arbeit schließt diese Lücke durch eine systematische Auswertung verschiedener ähnlichkeitssbasierter und Zero-Shot-Ansätze für die Textklassifizierung von unbekannten Klassen. Verschiedene State-of-the-Art-Ansätze werden anhand von vier Textklassifikationsdatensätzen evaluiert, darunter ein neuer Datensatz aus dem medizinischen Bereich (medical domain). Zudem werden neue Baseline-Methoden basierend auf SimCSE und SBERT vorgeschlagen, da andere in bestehender Arbeit verwendete Baselines schwache Klassifikationsergebnisse erzielen und leicht übertroffen werden können (outperformed). Schließlich wird der neuartige ähnlichkeitsbasierte Lbl2TransformerVec-Ansatz präsentiert (Lbl2TransformerVec approach), der in der unüberwachten Textklassifizierung vorherige State-of-the-Art-Ansätze übertrifft (unsupervised text classification). Unsere Experimente zeigen, dass ähnlichkeitsbasierte Ansätze in den meisten Fällen signifikant besser abschneiden als Zero-Shot-Ansätze (significantly outperform zero-shot approaches). Darüber hinaus führt die Verwendung von SimCSE- oder SBERT-Einbettungen anstelle einfacherer Textrepräsentationen zu weiter verbesserten Ergebnissen bei der ähnlichkeitsbasierten Klassifizierung (increases similarity-based classification results even further).Fehlerkorrektur: In deutscher Sprache sollte es heißen "State-of-the-Art" statt "Stand-of-the-Art". Daher lautet die endgültige korrigierte Version:Die Textklassifizierung von unbekannten Klassen ist eine herausfordernde Aufgabe im Bereich der Natürlichen Sprachverarbeitung (NLP) und wird hauptsächlich mit zwei verschiedenen Ansätzen angegangen. Ähnlichkeitsbasierte Ansätze versuchen, Instanzen aufgrund von Ähnlichkeiten zwischen den Textdokumentdarstellungen und den Klassendeskriptordarstellungen zu klassifizieren. Zero-Shot-Textklassifizierungsansätze zielen darauf ab, Wissen aus einer Trainingsaufgabe zu verallgemeinern, indem sie passende Labels unbekannter Klassen an Textdokumente zuweisen. Obwohl bestehende Studien bereits einzelne Ansätze dieser Kategorien untersucht haben, bieten die Experimente in der Literatur keinen konsistenten Vergleich. Diese Arbeit schließt diese Lücke durch eine systematische Auswertung verschiedener ähnlichkeitssbasierter und Zero-Shot-Ansätze für die Textklassifizierung von unbekannten Klassen. Verschiedene State-of-the-Art-Ansätze werden anhand von vier Textklassifikationsdatensätzen evaluiert, darunter ein neuer Datensatz aus dem medizinischen Bereich (medical domain). Zudem werden neue Baseline-Methoden basierend auf SimCSE und SBERT vorgeschlagen, da andere in bestehender Arbeit verwendete Baselines schwache Klassifikationsergebnisse erzielen und leicht übertroffen werden können (outperformed). Schließlich wird der neuartige ähnlichkeitsbasierte Lbl2TransformerVec-Ansatz präsentiert (Lbl2TransformerVec approach), der in der unüberwachten Textklassifizierung vorherige State-of-the-Art-Ansätze übertrifft (unsupervised text classification). Unsere Experimente zeigen, dass ähnlichkeitsbasierte Ansätze in den meisten Fällen signifikant besser abschneiden als Zero-Shot-Ansätze (significantly outperform zero-shot approaches). Darüber hinaus führt die Verwendung von SimCSE- oder SBERT-Einbettungen anstelle einfacherer Textrepräsentationen zu weiter verbesserten Ergebnissen bei der ähnlichkeitsbasierten Klassifizierung (increases similarity-based classification results even further).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Bewertung von unüberwachter Textklassifizierung: Zero-Shot- und Ähnlichkeitsbasierte Ansätze | Paper | HyperAI