
要約
最近の情報抽出手法は、深層ニューラルモデルの学習に依存している。しかし、このようなモデルはノイズの多いラベルに対して容易に過学習を起こし、性能の低下を引き起こすことがある。大規模な学習リソースにおけるノイズラベルのフィルタリングは非常にコストが高いため、近年の研究では、ノイズラベルはクリーンラベルよりも学習ステップを多く要して記憶され、かつより頻繁に忘れられることから、学習過程において識別可能であることが示されている。このような性質に着目し、本研究では、エンティティ中心の情報抽出を対象としたシンプルなコレギュレーションフレームワークを提案する。本フレームワークは、同一の構造を持つ複数のニューラルモデルから構成され、初期化パラメータが異なる。これらのモデルはタスク固有の損失関数に基づいて共同最適化されるとともに、予測の一致度を保つためのアグリーメント損失に基づいて正則化され、ノイズラベルに対する過学習を抑制する。情報抽出における広く用いられているがノイズを含む2つのベンチマーク、TACREDおよびCoNLL03を用いた広範な実験により、本フレームワークの有効性が実証された。本研究で開発したコードは、今後の研究を支援するため、コミュニティに公開する。