HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente Vektordarstellung von Dokumenten durch Korruption

Minmin Chen

Zusammenfassung

Wir präsentieren ein effizientes Framework für das Lernen von Dokumentrepräsentationen, Document Vector through Corruption (Doc2VecC). Doc2VecC stellt jedes Dokument als einfaches Mittel der Wortvektoren dar. Es gewährleistet, dass eine auf diese Weise erzeugte Repräsentation während des Lernprozesses die semantischen Bedeutungen des Dokuments erfasst. Ein Korruptionsmodell ist integriert, das eine datenabhängige Regularisierung einführt, die informativen oder seltenen Wörtern den Vorzug gibt und gleichzeitig die Einbettungen von häufigen und nicht diskriminierenden Wörtern nahe bei Null hält. Doc2VecC erzeugt signifikant bessere Wortvektoren als Word2Vec. Wir vergleichen Doc2VecC mit mehreren aktuellen Algorithmen für das Lernen von Dokumentrepräsentationen. Die einfache Modellarchitektur, die durch Doc2VecC eingeführt wird, erreicht oder übertrifft den Stand der Technik bei der Erstellung hochwertiger Dokumentrepräsentationen für Sentimentanalyse, Dokumentklassifizierung sowie Aufgaben zur semantischen Verwandtschaft. Die Einfachheit des Modells ermöglicht es, Milliarden von Wörtern pro Stunde auf einem einzelnen Rechner zu trainieren. Gleichzeitig ist das Modell sehr effizient bei der Generierung von Repräsentationen unbekannter Dokumente zur Testzeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp