11日前

ヘビーテール表現、テキスト極性分類およびデータ拡張

Hamid Jalalzai, Pierre Colombo, Chloé Clavel, Eric Gaussier, Giovanna Varni, Emmanuel Vignon, Anne Sabourin
ヘビーテール表現、テキスト極性分類およびデータ拡張
要約

自然言語処理におけるテキスト表現の主流的手法は、巨視的コーパス上で埋め込み(embedding)を学習するものであり、合成性や距離保存性といった便利な性質を持つ。本論文では、分布の裾(tail)に関する望ましい正則性を持つ重尾型埋め込みを学習する新たな手法を開発した。この手法により、多変量極値理論(multivariate extreme value theory)の枠組みを用いて、分布の主塊から離れた点を分析することが可能となる。特に、提案された埋め込みの裾に特化した分類器を構築したが、その性能はベースラインを上回っている。この分類器はスケール不変性を示す特性を有しており、これを活用してラベルを保持するデータ拡張のための新しいテキスト生成手法を導入した。合成データおよび実際のテキストデータに対する数値実験により、提案フレームワークの有効性が示され、特定の属性(例えば肯定的または否定的な感情)を制御可能な形で意味のある文を生成できることを確認した。

ヘビーテール表現、テキスト極性分類およびデータ拡張 | 最新論文 | HyperAI超神経