HyperAIHyperAI
vor 2 Monaten

Effiziente Vektordarstellung von Dokumenten durch Korruption

Minmin Chen
Effiziente Vektordarstellung von Dokumenten durch Korruption
Abstract

Wir präsentieren ein effizientes Framework für das Lernen von Dokumentrepräsentationen, Document Vector through Corruption (Doc2VecC). Doc2VecC stellt jedes Dokument als einfaches Mittel der Wortvektoren dar. Es gewährleistet, dass eine auf diese Weise erzeugte Repräsentation während des Lernprozesses die semantischen Bedeutungen des Dokuments erfasst. Ein Korruptionsmodell ist integriert, das eine datenabhängige Regularisierung einführt, die informativen oder seltenen Wörtern den Vorzug gibt und gleichzeitig die Einbettungen von häufigen und nicht diskriminierenden Wörtern nahe bei Null hält. Doc2VecC erzeugt signifikant bessere Wortvektoren als Word2Vec. Wir vergleichen Doc2VecC mit mehreren aktuellen Algorithmen für das Lernen von Dokumentrepräsentationen. Die einfache Modellarchitektur, die durch Doc2VecC eingeführt wird, erreicht oder übertrifft den Stand der Technik bei der Erstellung hochwertiger Dokumentrepräsentationen für Sentimentanalyse, Dokumentklassifizierung sowie Aufgaben zur semantischen Verwandtschaft. Die Einfachheit des Modells ermöglicht es, Milliarden von Wörtern pro Stunde auf einem einzelnen Rechner zu trainieren. Gleichzeitig ist das Modell sehr effizient bei der Generierung von Repräsentationen unbekannter Dokumente zur Testzeit.

Effiziente Vektordarstellung von Dokumenten durch Korruption | Neueste Forschungsarbeiten | HyperAI