HyperAIHyperAI
vor 2 Monaten

Lbl2Vec: Ein embeddings-basierter Ansatz für die unsupervisierte Dokumentensuche zu vorgegebenen Themen

Tim Schopf; Daniel Braun; Florian Matthes
Lbl2Vec: Ein embeddings-basierter Ansatz für die unsupervisierte Dokumentensuche zu vorgegebenen Themen
Abstract

In dieser Arbeit betrachten wir die Aufgabe, Dokumente mit vordefinierten Themen aus einem nicht gekennzeichneten Dokumentsatz unter Verwendung eines unüberwachten Ansatzes zu retrieren. Der vorgeschlagene unüberwachte Ansatz erfordert nur eine geringe Anzahl von Schlüsselwörtern, die die jeweiligen Themen beschreiben, und keine gekennzeichneten Dokumente. Bestehende Ansätze stützten sich entweder stark auf ein großes Volumen zusätzlichen, kodifizierten Weltwissens oder auf Termdokumenthäufigkeiten. Im Gegensatz dazu führen wir eine Methode ein, die gemeinsam eingebettete Dokument- und Wortvektoren ausschließlich aus dem nicht gekennzeichneten Dokumentsatz lernt, um Dokumente zu finden, die semantisch den durch die Schlüsselwörter beschriebenen Themen ähnlich sind. Die vorgeschlagene Methode erfordert fast keine Textvorverarbeitung, ist aber gleichzeitig effektiv bei der Retrievung relevanter Dokumente mit hoher Wahrscheinlichkeit. Bei der sukzessiven Retrievung von Dokumenten zu verschiedenen vordefinierten Themen aus öffentlich zugänglichen und häufig verwendeten Datensätzen erreichten wir einen durchschnittlichen Wert des Flächeninhalts unter der Empfängerbetriebscharakteristik-Kurve (Receiver Operating Characteristic Curve) von 0,95 in einem Datensatz und 0,92 in einem anderen. Darüber hinaus kann unsere Methode für die multiklassige Dokumentenklassifikation verwendet werden, ohne dass das Kennzeichnen des Datensatzes im Voraus erforderlich wäre. Verglichen mit einer unüberwachten Klassifikationsbaseline konnten wir die F1-Werte von 76,6 auf 82,7 und von 61,0 auf 75,1 in den entsprechenden Datensätzen erhöhen. Um eine einfache Reproduktion unseres Ansatzes zu ermöglichen, stellen wir den entwickelten Lbl2Vec-Code als fertiges Werkzeug unter der 3-Klausel-BSD-Lizenz öffentlich zur Verfügung.

Lbl2Vec: Ein embeddings-basierter Ansatz für die unsupervisierte Dokumentensuche zu vorgegebenen Themen | Neueste Forschungsarbeiten | HyperAI