Verteilte Darstellungen von Sätzen und Dokumenten

Viele maschinelle Lernalgorithmen erfordern, dass die Eingabe als Merkmalsvektor fester Länge dargestellt wird. Bei Texten ist eine der häufigsten Merkmale fester Länge das "Bag-of-Words"-Modell. Trotz ihrer Beliebtheit haben "Bag-of-Words"-Merkmale zwei wesentliche Schwächen: sie verlieren die Reihenfolge der Wörter und ignorieren auch die Semantik der Wörter. Zum Beispiel sind die Wörter "powerful" (mächtig), "strong" (stark) und "Paris" (Paris) gleichermaßen voneinander entfernt. In dieser Arbeit schlagen wir Paragraph Vector vor, einen unüberwachten Algorithmus, der aus variabler Länge Textabschnitten, wie Sätzen, Absätzen und Dokumenten, Merkmalsrepräsentationen fester Länge lernt. Unser Algorithmus repräsentiert jedes Dokument durch einen dichten Vektor, der trainiert wird, um Wörter im Dokument vorherzusagen. Die Konstruktion unseres Algorithmus bietet das Potenzial, die Schwächen von "Bag-of-Words"-Modellen zu überwinden. Empirische Ergebnisse zeigen, dass Paragraph Vektoren "Bag-of-Words"-Modelle以及其他文本表示技术超越。最后,我们在多个文本分类和情感分析任务上取得了新的最先进结果。请注意,最后一句中的“以及其他文本表示技术超越”和“最后,我们在多个文本分类和情感分析任务上取得了新的最先进结果”需要进行适当的德语表达调整:Empirische Ergebnisse zeigen, dass Paragraph Vektoren sowohl "Bag-of-Words"-Modelle als auch andere Techniken für Textrepräsentation übertreffen. Schließlich erreichen wir neue Standards in mehreren Textklassifikations- und Sentiment-Analysesaufgaben.这样整个段落的翻译就更加流畅且符合德语的表达习惯了。