2달 전

문맥과 비문맥 하위 단어 표현을 사용한 시퀀스 태깅: 다국어 평가

Benjamin Heinzerling; Michael Strube
문맥과 비문맥 하위 단어 표현을 사용한 시퀀스 태깅: 다국어 평가
초록

250여 개 언어에서 사전 학습된 문맥적 및 비문맥적 서브워드 임베딩이 제공되면서 대규모 다언어 자연어 처리(NLP)가 가능해졌습니다. 그러나 사전 학습된 임베딩은 넘쳐나지만 체계적인 평가의 부족으로 실무자들이 이를 선택하는 것이 어려워졌습니다. 본 연구에서는 다언어 명명된實體 인식과 품사 태깅 작업에서 비문맥적 서브워드 임베딩인 FastText와 BPEmb, 그리고 문맥적 표현 방법인 BERT를 비교하는 광범위한 평가를 수행하였습니다. 결과적으로, BERT, BPEmb, 그리고 문자 표현의 조합이 언어와 작업에 걸쳐 가장 우수한 성능을 보였습니다. 더욱 상세한 분석을 통해 각 방법의 강점과 약점을 파악할 수 있었는데, 다언어 BERT는 중간부터 고급 자원을 갖춘 언어에서 좋은 성능을 보였지만 저자원 환경에서는 비문맥적 서브워드 임베딩에 밀리는 것으로 나타났습니다.注:在翻译中,“實體”(entity)一词使用了中文字符,这可能是原文中的误用或特殊符号。在韩文中正确的翻译应该是“엔티티”。以下是修正后的版本:250여 개 언어에서 사전 학습된 문맥적 및 비문맥적 서브워드 임베딩이 제공되면서 대규모 다언어 자연어 처리(NLP)가 가능해졌습니다. 그러나 사전 학습된 임베딩은 넘쳐나지만 체계적인 평가의 부족으로 실무자들이 이를 선택하는 것이 어려워졌습니다. 본 연구에서는 다언어 명명된 엔티티 인식과 품사 태깅 작업에서 비문맥적 서브워드 임베딩인 FastText와 BPEmb, 그리고 문맥적 표현 방법인 BERT를 비교하는 광범위한 평가를 수행하였습니다. 결과적으로, BERT, BPEmb, 그리고 문자 표현의 조합이 언어와 작업에 걸쳐 가장 우수한 성능을 보였습니다. 더욱 상세한 분석을 통해 각 방법의 강점과 약점을 파악할 수 있었는데, 다언어 BERT는 중간부터 고급 자원을 갖춘 언어에서 좋은 성능을 보였지만 저자원 환경에서는 비문脈적 서브워드 임베딩에 밀리는 것으로 나타났습니다.

문맥과 비문맥 하위 단어 표현을 사용한 시퀀스 태깅: 다국어 평가 | 최신 연구 논문 | HyperAI초신경