Ein großes selbst annotiertes Korpus für Sarkasmus

Wir stellen das Self-Annotated Reddit Corpus (SARC) vor, ein umfangreiches Korpus für die Forschung über Sarkasmus und zur Ausbildung und Bewertung von Systemen zur Erkennung von Sarkasmus. Das Korpus enthält 1,3 Millionen sarkastische Äußerungen – zehnmal mehr als jeder bisherige Datensatz – sowie zahlreiche nicht sarkastische Äußerungen, was das Lernen sowohl in balancierten als auch in unbalancierten Labelregimen ermöglicht. Jede Äußerung ist zudem selbst annotiert – der Sarkasmus wird vom Autor und nicht von einem externen Annotator gekennzeichnet – und mit Kontextinformationen des Nutzers, des Themas und des Gesprächs versehen. Wir evaluieren das Korpus hinsichtlich seiner Genauigkeit, erstellen Benchmarks für die Erkennung von Sarkasmus und bewerten Baseline-Methoden.