3달 전

CAW-coref: 연결어를 인지하는 단어 수준 공참조 해결

Karel D&#39, Oosterlinck, Semere Kiros Bitew, Brandon Papineau, Christopher Potts, Thomas Demeester, Chris Develder
CAW-coref: 연결어를 인지하는 단어 수준 공참조 해결
초록

최신의 공동지칭 해결 시스템은 문서당 여러 번의 대규모 언어 모델(LLM) 호출에 의존하기 때문에, 대규모 코퍼스를 활용한 정보 추출과 같은 많은 활용 사례에서 비용이 지나치게 높은 문제가 있다. 현재 선도적인 단어 수준 공동지칭 시스템(WL-coref)은 이러한 최신 기술(SOTA) 시스템의 성능의 96.6%를 달성하면서도 훨씬 더 효율적이다. 본 연구에서는 WL-coref가 겪는 일상적이지만 중요한 오류 사례—예를 들어 '톰과 메리'와 같이 합성된 지칭 표현(Conjoined mentions)을 처리하는 데 어려움을 겪는 점—을 규명한다. 우리는 이 문제에 대해 간단하면서도 효과적인 해결책을 제안하며, OntoNotes 테스트 세트에서 F1 점수를 0.9% 향상시켰고, 효율적인 단어 수준 공동지칭 해결 기법과 비용이 큰 최신 기술 간의 성능 격차를 34.6% 축소시켰다. 본 연구의 합성 지칭 인식 단어 수준 공동지칭 모델(CAW-coref)과 소스 코드는 https://github.com/KarelDO/wl-coref 에 공개되어 있다.