2ヶ月前

SubRegWeigh: サブワード正規化を用いた効果的かつ効率的なアノテーション重み付け

Kohei Tsuji; Tatsuya Hiraoka; Yuchang Cheng; Tomoya Iwakura
SubRegWeigh: サブワード正規化を用いた効果的かつ効率的なアノテーション重み付け
要約

NLPデータセットは、手動でアノテーションが行われた場合でも、依然としてアノテーションの誤りを含む可能性があります。研究者たちは、データセット内の誤りの悪影響を自動的に軽減する方法を開発しようと試みてきました。しかし、既存の方法は多くの訓練済みモデルが必要であり、時間のかかるものとなっています。本論文では、サブワード正規化と呼ばれるトークン化技術を利用し、複数の誤り検出モデルをシミュレートして誤りを検出する時間を節約する方法を提案します。我々が提案するSubRegWeigh(サブレグウェイ)は、既存の方法よりも4〜5倍速くアノテーションの重み付けを行うことができます。さらに、SubRegWeighは文書分類および固有表現認識タスクにおいて性能向上を達成しました。疑似不正ラベルを使用した実験では、SubRegWeighが疑似不正ラベルをアノテーションの誤りとして明確に識別することを示しています。我々のコードはhttps://github.com/4ldk/SubRegWeigh で公開されています。

SubRegWeigh: サブワード正規化を用いた効果的かつ効率的なアノテーション重み付け | 最新論文 | HyperAI超神経