11일 전

OntoGUM: 12개의 다른 장르에서 최신 상위 수준의 문맥 기반 공지사용 해소 평가

Yilun Zhu, Sameer Pradhan, Amir Zeldes
OntoGUM: 12개의 다른 장르에서 최신 상위 수준의 문맥 기반 공지사용 해소 평가
초록

최근 SOTA(최고 성능) 공명해결(코어퍼런스 해석) 모델은 OntoNotes 벤치마크에서 점점 더 놀라운 성능을 기록하고 있다. 그러나 다양한 장르에 걸쳐 동일한 평가 체계를 따르는 비교 가능한 데이터가 부족하여, 개방형 도메인 데이터에 대한 일반화 능력을 평가하는 것은 여전히 어려운 과제이다. 본 논문은 최신 신경망 기반 언어모델 기반의 엔드투엔드 시스템이 도메인을 벗어날 경우 성능이 매우 크게 저하됨을 보여주는 데이터셋과 포괄적인 평가를 제시한다. 우리는 GUM(12개 장르를 포함하는 영어 문헌 코퍼스)에서 결정론적 규칙을 사용하여 변환한, OntoNotes와 유사한 코어퍼런스 데이터셋인 OntoGUM을 공개한다. 이 데이터셋은 GUM의 � бог실한 구문 및 담론(annotation) 정보를 활용하여, OntoNotes 지침에 따라 인간이 주석을 달아 작성한 가장 큰 코어퍼런스 코퍼스이며, OntoNotes 체계와의 일관성에 대해 평가된 최초의 사례이다. 12개 장르에 걸친 도메인 외부 평가 결과, 결정론적 시스템과 딥러닝 시스템 모두 거의 15~20%의 성능 저하가 발생함을 확인하였으며, 이는 기존 코어퍼런스 해석 모델이 일반화 능력이 부족하거나 은닉된 과적합( covert overfitting)이 존재함을 시사한다.

OntoGUM: 12개의 다른 장르에서 최신 상위 수준의 문맥 기반 공지사용 해소 평가 | 최신 연구 논문 | HyperAI초신경