Millionen Emoji-Auftritte nutzen, um Darstellungen für beliebige Domänen zum Erkennen von Stimmung, Emotion und Sarkasmus zu lernen

NLP-Aufgaben sind häufig durch die Knappheit manuell annotierter Daten eingeschränkt. Bei der Sentimentanalyse in sozialen Medien und verwandten Aufgaben haben Forscher daher binäre Emoticons und spezifische Hashtags als Form von distanter Überwachung verwendet. Unser Papier zeigt, dass die Erweiterung der distanzierten Überwachung auf eine vielfältigere Menge an verrauschten Labels zu reicheren Repräsentationen führt. Durch die Vorhersage von Emojis in einem Datensatz von 1,246 Milliarden Tweets, die eines von 64 gängigen Emojis enthalten, erzielen wir den aktuellen Stand der Technik (state-of-the-art) in 8 Benchmark-Datensätzen im Bereich Sentiment-, Emotions- und Sarkasmusdetektion mit einem einzigen vortrainierten Modell. Unsere Analysen bestätigen, dass die Vielfalt unserer emotionalen Labels eine Leistungsverbesserung gegenüber früheren Ansätzen der distanzierten Überwachung bringt.