Effiziente Vektordarstellung von Dokumenten durch Korruption

Wir präsentieren ein effizientes Framework für das Lernen von Dokumentrepräsentationen, Document Vector through Corruption (Doc2VecC). Doc2VecC stellt jedes Dokument als einfaches Mittel der Wortvektoren dar. Es gewährleistet, dass eine auf diese Weise erzeugte Repräsentation während des Lernprozesses die semantischen Bedeutungen des Dokuments erfasst. Ein Korruptionsmodell ist integriert, das eine datenabhängige Regularisierung einführt, die informativen oder seltenen Wörtern den Vorzug gibt und gleichzeitig die Einbettungen von häufigen und nicht diskriminierenden Wörtern nahe bei Null hält. Doc2VecC erzeugt signifikant bessere Wortvektoren als Word2Vec. Wir vergleichen Doc2VecC mit mehreren aktuellen Algorithmen für das Lernen von Dokumentrepräsentationen. Die einfache Modellarchitektur, die durch Doc2VecC eingeführt wird, erreicht oder übertrifft den Stand der Technik bei der Erstellung hochwertiger Dokumentrepräsentationen für Sentimentanalyse, Dokumentklassifizierung sowie Aufgaben zur semantischen Verwandtschaft. Die Einfachheit des Modells ermöglicht es, Milliarden von Wörtern pro Stunde auf einem einzelnen Rechner zu trainieren. Gleichzeitig ist das Modell sehr effizient bei der Generierung von Repräsentationen unbekannter Dokumente zur Testzeit.