
要約
最新のSOTA(最良)共参照解決手法は、OntoNotesベンチマークにおいてますます高いスコアを達成している。しかし、他のジャンルにおいても同一のスキームに従った比較可能なデータが不足しているため、開領域データへの汎化性能を評価することが困難である。本論文では、最新のニューラル言語モデル(LM)に基づくエンドツーエンド型システムが、ドメイン外データにおいて著しく性能が低下することを示すためのデータセットと包括的な評価を提供する。さらに、GUM(英語コーパス、12のジャンルをカバー)から決定論的ルールを用いて変換して作成した、OntoNotesと類似した共参照データセット「OntoGUM」を公開する。このデータセットは、GUMに豊富な句構造および話法的アノテーションが備わっているため、OntoNotesガイドラインに従った最大規模の人的アノテーション付き共参照コーパスを構築可能であり、かつ、OntoNotesスキームとの整合性を評価された初めてのデータセットである。12のジャンルにわたるドメイン外評価により、決定論的アプローチおよびディープラーニング手法の両方で、約15〜20%の性能低下が確認された。これは、既存の共参照解決モデルに汎化能力の欠如、あるいは隠れた過適合(covert overfitting)が存在していることを示唆している。