HyperAIHyperAI

Command Palette

Search for a command to run...

大規模な自己注釈コーパスの皮肉表現

Mikhail Khodak Nikunj Saunshi Kiran Vodrahalli

概要

我々は、皮肉研究および皮肉検出システムの訓練と評価のために使用される大規模なコーパスであるSelf-Annotated Reddit Corpus(SARC)を紹介します。このコーパスには130万件の皮肉表現が含まれており、これはこれまでのデータセットの10倍以上の量です。また、非皮肉表現も多数収録されており、バランスの取れたラベル分布と非バランスのラベル分布での学習が可能です。さらに、各発言は自己注釈付きであり、皮肉かどうかは著者自身によってラベリングされています(独立した注釈者が行うものではありません)。ユーザー情報、トピック情報、会話コンテクストも提供されています。我々はこのコーパスの正確性を評価し、皮肉検出のベンチマークを構築し、ベースライン手法を評価しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています