Verbesserung der dokumentweiten Sentiment-Klassifikation mithilfe der Bedeutung von Sätzen

Bisherige Forscher haben die Sentimentanalyse als Dokumentklassifizierungsaufgabe betrachtet, bei der Eingabedokumente in vordefinierte Sentiment-Klassen eingeteilt werden. Obwohl in einem Dokument Sätze enthalten sein können, die wichtige Hinweise für die Sentimentanalyse liefern, und solche, die dies nicht tun, wurden Dokumente bisher als „Sack von Sätzen“ behandelt. Mit anderen Worten: Die Bedeutung jedes einzelnen Satzes innerhalb eines Dokuments wurde nicht berücksichtigt. Um die Polarität eines Dokuments effektiv zu bestimmen, sollten die einzelnen Sätze unterschiedlich stark gewichtet werden. Um dieses Problem zu lösen, schlagen wir ein auf tiefen neuronalen Netzen basierendes Modell zur Satzklassifizierung auf Dokumentebene vor, bei dem die Gewichtung der Sätze automatisch über Gate-Mechanismen ermittelt wird. Um das neue Sentimentanalyse-Modell zu überprüfen, führten wir Experimente mit Sentiment-Datensätzen aus vier unterschiedlichen Domänen durch: Filmrezensionen, Hotelrezensionen, Restaurantrezensionen und Musikrezensionen. In den Experimenten übertraf das vorgeschlagene Modell die bisherigen State-of-the-Art-Modelle, die keine Unterschiede in der Bedeutung der Sätze innerhalb eines Dokuments berücksichtigten. Die experimentellen Ergebnisse zeigen, dass die Bedeutung der Sätze bei der Aufgabe der Dokumentebenen-Sentiment-Klassifizierung berücksichtigt werden muss.