データ不均衡なNLPタスクにおけるDice Loss

自然言語処理(NLP)の多くのタスク、たとえばタギングや機械的読解理解において、深刻なデータ不均衡問題に直面している。具体的には、ネガティブ例がポジティブ例に対して圧倒的に多く、また背景例(あるいは容易なネガティブ例)の数が膨大であるため、学習プロセスがこれらに支配されてしまう。一般的に用いられる交差エントロピー(CE)基準は実際には精度を最適化する目的関数であり、学習時と評価時の目標に乖離を生じさせる。すなわち、学習時には各訓練サンプルが目的関数に等しく寄与するが、評価時にはF1スコアはポジティブ例に特に注目する。本論文では、データ不均衡問題が顕著なNLPタスクにおいて、標準的な交差エントロピー目的関数の代わりにDice損失を採用することを提案する。Dice損失はSorensen-Dice係数またはTversky指数に基づいており、偽陽性と偽陰性に同等の重みを付与するため、データ不均衡の影響に対してより耐性がある。さらに、学習中に容易なネガティブ例が過剰に影響を及ぼす問題を緩和するために、動的に調整された重みを訓練サンプルに付与する戦略を提案する。これにより、容易なネガティブ例の影響を軽減する。理論的解析により、この戦略が評価時のF1スコアと学習時のDice損失との乖離を縮小することを示した。提案する学習目的関数を用いることで、広範なデータ不均衡NLPタスクにおいて顕著な性能向上が観察された。特に、品詞タギングタスクにおいてCTB5、CTB6、UD1.4で最先端(SOTA)の結果を達成し、命名エンティティ認識タスクではCoNLL03、OntoNotes5.0、MSRA、OntoNotes4.0でSOTAを達成した。また、機械的読解理解および類義表現識別タスクにおいても、競争力ある結果を獲得した。