2ヶ月前

数百万の絵文字出現を用いて、感情、情緒、及び皮肉の検出のための任意ドメイン表現を学習する

Bjarke Felbo; Alan Mislove; Anders Søgaard; Iyad Rahwan; Sune Lehmann
数百万の絵文字出現を用いて、感情、情緒、及び皮肉の検出のための任意ドメイン表現を学習する
要約

自然言語処理(NLP)のタスクは、手動で注釈されたデータの不足によりしばしば制限されます。ソーシャルメディアの感情分析や関連するタスクにおいて、研究者たちはバイナリ化された絵文字や特定のハッシュタグを遠隔監督の形として利用してきました。本論文では、遠隔監督をより多様なノイジーラベルに拡張することで、モデルがより豊かな表現を学習できることが示されています。64種類の一般的な絵文字のいずれかを含む12億4600万件のツイートデータセットを用いた絵文字予測によって、単一の事前学習済みモデルを使用して、感情分析、情緒検出、皮肉検出における8つのベンチマークデータセットで最先端の性能を得ています。当方の分析では、我々が使用した感情ラベルの多様性が従来の遠隔監督手法よりも性能向上につながることが確認されました。