HyperAIHyperAI

Command Palette

Search for a command to run...

Lbl2Vec: Ein embeddings-basierter Ansatz für die unsupervisierte Dokumentensuche zu vorgegebenen Themen

Tim Schopf Daniel Braun Florian Matthes

Zusammenfassung

In dieser Arbeit betrachten wir die Aufgabe, Dokumente mit vordefinierten Themen aus einem nicht gekennzeichneten Dokumentsatz unter Verwendung eines unüberwachten Ansatzes zu retrieren. Der vorgeschlagene unüberwachte Ansatz erfordert nur eine geringe Anzahl von Schlüsselwörtern, die die jeweiligen Themen beschreiben, und keine gekennzeichneten Dokumente. Bestehende Ansätze stützten sich entweder stark auf ein großes Volumen zusätzlichen, kodifizierten Weltwissens oder auf Termdokumenthäufigkeiten. Im Gegensatz dazu führen wir eine Methode ein, die gemeinsam eingebettete Dokument- und Wortvektoren ausschließlich aus dem nicht gekennzeichneten Dokumentsatz lernt, um Dokumente zu finden, die semantisch den durch die Schlüsselwörter beschriebenen Themen ähnlich sind. Die vorgeschlagene Methode erfordert fast keine Textvorverarbeitung, ist aber gleichzeitig effektiv bei der Retrievung relevanter Dokumente mit hoher Wahrscheinlichkeit. Bei der sukzessiven Retrievung von Dokumenten zu verschiedenen vordefinierten Themen aus öffentlich zugänglichen und häufig verwendeten Datensätzen erreichten wir einen durchschnittlichen Wert des Flächeninhalts unter der Empfängerbetriebscharakteristik-Kurve (Receiver Operating Characteristic Curve) von 0,95 in einem Datensatz und 0,92 in einem anderen. Darüber hinaus kann unsere Methode für die multiklassige Dokumentenklassifikation verwendet werden, ohne dass das Kennzeichnen des Datensatzes im Voraus erforderlich wäre. Verglichen mit einer unüberwachten Klassifikationsbaseline konnten wir die F1-Werte von 76,6 auf 82,7 und von 61,0 auf 75,1 in den entsprechenden Datensätzen erhöhen. Um eine einfache Reproduktion unseres Ansatzes zu ermöglichen, stellen wir den entwickelten Lbl2Vec-Code als fertiges Werkzeug unter der 3-Klausel-BSD-Lizenz öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp