2달 전

Czech 언어를 대상으로 한 BERT를 활용한 강점 부호 복원 연구

Jakub Náplava; Milan Straka; Jana Straková

초록

우리는 문맥화된 임베딩, 즉 BERT를 기반으로 한 새로운 강점 부호 복원 아키텍처를 제안하며, 이 아키텍처를 강점 부호를 사용하는 12개 언어에 대해 평가합니다. 또한, 형태론적으로 풍부하고 강점 부호 사용 비율이 높은 체코어에 대해 상세한 오류 분석을 수행하였습니다. 특히, 우리는 모든 잘못된 예측을 수동으로 주석 처리하여, 약 44%의 경우가 실제로 오류가 아니라 합리적인 변형(19%)이나 시스템이 잘못된 데이터를 수정한 것(25%)임을 보여주었습니다. 마지막으로, 실제 오류를 상세하게 분류하였습니다. 코드는 https://github.com/ufal/bert-diacritics-restoration에서 공개됩니다.注释：- "강점 부호" 是对 "diacritics" 的翻译，指附加在字母上的符号，用于表示发音的变化。- "BERT" 保持不变，因为这是专有名词。- "체코어" 是对 "Czech" 的翻译。- "주석 처리" 是对 "annotate" 的翻译，在此上下文中指手动标记错误预测。