2달 전

왜 어텐션인가? NER의 경우 BiLSTM의 부족한 점과 그 해결책 분석

Peng-Hsuan Li; Tsu-Jui Fu; Wei-Yun Ma
왜 어텐션인가? NER의 경우 BiLSTM의 부족한 점과 그 해결책 분석
초록

BiLSTM은 시퀀스 라벨링 설정에서 NER의 핵심 모듈로 널리 사용되어 왔습니다. 최신 접근 방식은 BiLSTM을 가제터(gazetteers), 언어 모델링(language-modeling) 또는 다중 작업 감독(multi-task supervision)과 같은 추가 자원과 함께 사용하여 NER 성능을 더욱 향상시키고 있습니다. 그러나 본 논문에서는 한 걸음 물러나 BiLSTM 자체의 문제와 자기 주의(self-attention)가 어떻게 개선을 가져올 수 있는지에 초점을 맞춥니다. 우리는 (CRF-)BiLSTM이 각 단어에 대한 교차 컨텍스트 패턴을 모델링하는 데 있어 제한점 -- XOR 제한 -- 을 공식적으로 보여줍니다. 그런 다음, 두 가지 간단한 교차 구조인 자기 주의와 Cross-BiLSTM이 이 문제를 효과적으로 해결할 수 있음을 보여줍니다. 우리는 실제 세계 NER 데이터셋인 OntoNotes 5.0과 WNUT 2017에서 이 부족함의 실질적인 영향을 테스트하였으며, 베이스라인 대비 명확하고 일관된 개선 결과를 얻었습니다. 일부 다중 토큰 엔티티 멘션에서는 최대 8.7%의 성능 향상을 보였습니다. 우리는 NER의 여러 측면, 특히 다중 토큰 멘션의 식별에서 개선된 점들을 깊이 있게 분석합니다. 이 연구는 시퀀스 라벨링 NER에 대한 미래의 개선 사항을 위한 탄탄한 기반을 마련해야 할 것입니다.(소스 코드: https://github.com/jacobvsdanniel/cross-ner)