DataStories beim SemEval-2017 Task 4: Tiefes LSTM mit Attention für sentimentanalyse auf Nachrichten- und themenbasierter Ebene

In diesem Paper präsentieren wir zwei Deep-Learning-Systeme, die an der SemEval-2017-Aufgabe 4 „Sentimentanalyse in Twitter“ teilnahmen. Wir beteiligten uns an allen Unteraufgaben für englischsprachige Tweets, die die Sentimentpolaritätsklassifikation und -quantifizierung auf Nachrichten- und themenbasierter Ebene umfassten. Wir setzen Long Short-Term Memory (LSTM)-Netzwerke ein, die durch zwei Arten von Aufmerksamkeitsmechanismen ergänzt wurden und auf Wortembeddings basieren, die auf einer großen Sammlung von Twitter-Nachrichten vortrainiert wurden. Zudem stellen wir ein Textverarbeitungswerkzeug vor, das speziell für Nachrichten aus sozialen Netzwerken geeignet ist und Funktionen wie Tokenisierung, Wortnormalisierung, Segmentierung und Rechtschreibkorrektur bereitstellt. Unser Ansatz verwendet keine handkodierten Merkmale oder Sentiment-Lexika. Wir erreichten den ersten Platz (geteilt) in Subtask A und erzielten zudem sehr wettbewerbsfähige Ergebnisse in den übrigen Subtasks. Sowohl die Wortembeddings als auch unser Textverarbeitungswerkzeug sind der Forschungsgemeinschaft zugänglich.