2달 전
CharacterBERT: 문자 수준의 오픈 어휘 표현을 위한 ELMo와 BERT의 조화
Hicham El Boukkouri; Olivier Ferret; Thomas Lavergne; Hiroshi Noji; Pierre Zweigenbaum; Junichi Tsujii

초록
BERT가 가져온 강력한 개선 덕분에, 많은 최근 표현 모델들이 주요 구성 요소로 Transformer 아키텍처를 채택하였으며, 이 과정에서 Transformer와 본질적으로 연관되어 있지 않은 워드피스 토큰화 시스템을 상속받게 되었습니다. 이 시스템은 문자의 유연성과 전체 단어의 효율성 사이에서 좋은 균형을 이루는 것으로 알려져 있지만, 일반 영역에서 미리 정의된 워드피스 어휘집을 사용하는 것은 항상 적절하지 않으며, 특히 전문 영역(예: 의료 영역)의 모델을 구축할 때 더욱 그렇습니다. 또한, 워드피스 토큰화를 채택하면 초단위 수준으로 초점을 옮겨서 모델이 개념적으로 더 복잡해지고 실용적으로는 덜 편리해진다는 주장도 있습니다. 이러한 이유들로, 우리는 워드피스 시스템을 완전히 제거하고 대신 문자-CNN 모듈을 사용하여 문자들을 참조하여 전체 단어를 표현하는 새로운 BERT 변종인 CharacterBERT를 제안합니다. 우리는 이 새로운 모델이 다양한 의료 영역 작업에서 BERT의 성능을 향상시키면서 동시에 견고한, 단어 수준의 오픈 어휘 표현을 생성함을 보여줍니다.