HyperAIHyperAI
il y a 2 mois

Un Grand Corpus Auto-Annotationné pour le Sarcastisme

Mikhail Khodak; Nikunj Saunshi; Kiran Vodrahalli
Un Grand Corpus Auto-Annotationné pour le Sarcastisme
Résumé

Nous présentons le Self-Annotated Reddit Corpus (SARC), un corpus de grande ampleur destiné à la recherche sur l'ironie et à l'entraînement et l'évaluation des systèmes de détection de l'ironie. Ce corpus contient 1,3 million de déclarations ironiques, soit dix fois plus que tout autre jeu de données précédent, ainsi qu'un nombre considérablement supérieur d'instances de déclarations non ironiques, permettant ainsi d'apprendre dans des régimes d'étiquetage équilibrés et déséquilibrés. Chaque déclaration est en outre auto-annotée — l'ironie est étiquetée par l'auteur lui-même, et non par un annotateur indépendant — et fournie avec le contexte utilisateur, le sujet et la conversation. Nous évaluons la précision du corpus, construisons des benchmarks pour la détection de l'ironie et évaluons les méthodes de base.

Un Grand Corpus Auto-Annotationné pour le Sarcastisme | Articles de recherche récents | HyperAI