HyperAIHyperAI

Command Palette

Search for a command to run...

Un Grand Corpus Auto-Annotationné pour le Sarcastisme

Mikhail Khodak Nikunj Saunshi Kiran Vodrahalli

Résumé

Nous présentons le Self-Annotated Reddit Corpus (SARC), un corpus de grande ampleur destiné à la recherche sur l'ironie et à l'entraînement et l'évaluation des systèmes de détection de l'ironie. Ce corpus contient 1,3 million de déclarations ironiques, soit dix fois plus que tout autre jeu de données précédent, ainsi qu'un nombre considérablement supérieur d'instances de déclarations non ironiques, permettant ainsi d'apprendre dans des régimes d'étiquetage équilibrés et déséquilibrés. Chaque déclaration est en outre auto-annotée — l'ironie est étiquetée par l'auteur lui-même, et non par un annotateur indépendant — et fournie avec le contexte utilisateur, le sujet et la conversation. Nous évaluons la précision du corpus, construisons des benchmarks pour la détection de l'ironie et évaluons les méthodes de base.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un Grand Corpus Auto-Annotationné pour le Sarcastisme | Articles | HyperAI