
要約
我々は、皮肉研究および皮肉検出システムの訓練と評価のために使用される大規模なコーパスであるSelf-Annotated Reddit Corpus(SARC)を紹介します。このコーパスには130万件の皮肉表現が含まれており、これはこれまでのデータセットの10倍以上の量です。また、非皮肉表現も多数収録されており、バランスの取れたラベル分布と非バランスのラベル分布での学習が可能です。さらに、各発言は自己注釈付きであり、皮肉かどうかは著者自身によってラベリングされています(独立した注釈者が行うものではありません)。ユーザー情報、トピック情報、会話コンテクストも提供されています。我々はこのコーパスの正確性を評価し、皮肉検出のベンチマークを構築し、ベースライン手法を評価しました。