3ヶ月前
CAW-coref:接続語を意識した単語レベルコアフレンス解決
Karel D', Oosterlinck, Semere Kiros Bitew, Brandon Papineau, Christopher Potts, Thomas Demeester, Chris Develder

要約
最先端の共参照解決システムは、文書1件あたり複数回の大規模言語モデル(LLM)呼び出しに依存しており、多くの用途(例えば、大規模コーパスを用いた情報抽出)において費用が非常に高くなるため、実用上困難である。現在、単語レベルの共参照解決で最も優れた性能を発揮するシステム(WL-coref)は、最先端のシステムの96.6%の性能を達成しつつ、大幅に効率性に優れている。本研究では、WL-corefが抱える日常的ではあるが重要な失敗ケース——「トムとメアリー」といった並列的な参照表現(conjoined mentions)の処理——を特定した。これに対して、シンプルながらも効果的な解決策を提示し、OntoNotesテストセットにおけるF1スコアを0.9%向上させ、効率的な単語レベル共参照解決と高コストな最先端手法との性能差を34.6%縮小した。本研究で提案する「並列表現に配慮した単語レベル共参照モデル(CAW-coref)」および実装コードは、https://github.com/KarelDO/wl-coref にて公開されている。