2달 전

g2pW: 조건부 가중 소프트맥스 BERT를 이용한 한자어 다의어 해소

Yi-Chang Chen; Yu-Chuan Chang; Yen-Cheng Chang; Yi-Ren Yeh
g2pW: 조건부 가중 소프트맥스 BERT를 이용한 한자어 다의어 해소
초록

다음은 주어진 내용을 한국어로 번역한 결과입니다:중국어 그래피임-투-포네임(g2p) 변환에서 다의어 해소는 가장 중요한 작업이다. 이전 연구에서는 사전 학습된 언어 모델, 제한된 출력, 그리고 품사 태깅(Part-Of-Speech, POS)으로부터 얻은 부가 정보를 사용하여 이 문제를 다루었다. 이러한 전략들에 영감을 받아, 우리는 BERT의 출력을 관심 대상인 다의어 문자와 그 품사 태깅으로 조건부로 만드는 새로운 접근 방식인 g2pW를 제안한다. 이전 연구에서 사용된 하드 마스크 대신, 후보 포네임에 대한 소프트 가중 함수를 학습하는 것이 성능 향상에 더 유리하다는 것을 실험 결과가 보여준다. 또한, 우리의 제안된 g2pW는 통합 인코더와 동시에 품사 태깅 모델을 학습하기 때문에 별도의 사전 학습된 품사 태깅 모델이 필요하지 않다. 실험 결과, 우리의 g2pW는 공개 CPP 데이터셋에서 기존 방법들을 능가하는 것으로 나타났다. 모든 코드, 모델 가중치 및 사용자 친화적인 패키지는 공개되어 있다.

g2pW: 조건부 가중 소프트맥스 BERT를 이용한 한자어 다의어 해소 | 최신 연구 논문 | HyperAI초신경